本教程将指导您如何在Pandas DataFrame中处理包含混合数字和文本的列。我们将学习如何使用str.extract结合正则表达式从字符串中精确提取数值,并在此基础上进行分组聚合,以实现按类别汇总销售数据等复杂分析需求。
问题背景:非结构化销售数据处理
在数据分析实践中,我们经常会遇到数据格式不统一的情况。例如,在一个pandas dataframe的列中,数值可能与描述性文本混合在一起,且格式不固定。以下是一个典型的例子:
import pandas as pd import io data = """Category Sales Paid Table 1 table Yes Chair 3chairs Yes Cushion 8 cushions Yes Table 3Tables Yes Chair 12 Chairs No Mats 12Mats Yes """ df = pd.read_csv(io.StringIO(data), sep=r's+') print(df)
输出的DataFrame如下:
Category Sales Paid 0 Table 1 table Yes 1 Chair 3chairs Yes 2 Cushion 8 cushions Yes 3 Table 3Tables Yes 4 Chair 12 Chairs No 5 Mats 12Mats Yes
我们的目标是从Sales列中提取纯数字部分,并按Category进行分组求和。由于Sales列中的数值格式不一致(例如 “1 table”, “3chairs”, “8 cushions”),直接进行数值运算是不可能的。
核心工具:str.extract进行模式匹配
Pandas的Series.str.extract方法是处理此类问题的强大工具。它允许我们使用正则表达式从字符串中提取符合特定模式的部分。
1. 提取数值部分
为了从Sales列中提取开头的数字,我们可以使用正则表达式^(d+):
- ^:匹配字符串的开始。
- d+:匹配一个或多个数字。
- ():创建一个捕获组,str.extract将返回这个捕获组匹配到的内容。
# 提取销售数量 extracted_sales = df['Sales'].str.extract('^(d+)', expand=False) print("提取的销售数量(字符串形式):") print(extracted_sales)
输出结果:
提取的销售数量(字符串形式): 0 1 1 3 2 8 3 3 4 12 5 12 Name: Sales, dtype: object
expand=False参数确保返回一个Series而不是DataFrame。此时,提取的数字仍然是字符串类型(dtype: object),需要转换为整数类型才能进行数学运算。
2. 数据类型转换
使用astype(int)将提取的字符串数字转换为整数:
# 将提取的字符串转换为整数 numeric_sales = extracted_sales.astype(int) print("n转换后的销售数量(整数形式):") print(numeric_sales)
输出结果:
转换后的销售数量(整数形式): 0 1 1 3 2 8 3 3 4 12 5 12 Name: Sales, dtype: int64
按类别汇总销售数据
现在我们已经成功将Sales列中的数字提取并转换为整数,接下来就可以进行分组聚合操作了。我们可以使用groupby()方法按Category列进行分组,然后对numeric_sales求和。
# 按Category汇总所有商品销售额 total_sales_per_category = numeric_sales.groupby(df['Category']).sum() print("n按类别汇总的所有商品销售额:") print(total_sales_per_category)
输出结果:
按类别汇总的所有商品销售额: Category Chair 15 Cushion 8 Mats 12 Table 4 Name: Sales, dtype: int64
进阶应用:条件性销售额汇总
有时,我们可能需要根据额外的条件进行聚合,例如只统计“已支付(Paid == ‘Yes’)”的商品销售额。在这种情况下,我们需要在提取数字之前,先对数据进行条件筛选或预处理。
一种有效的方法是使用Series.where()方法。where()方法根据条件替换DataFrame或Series中的值。如果条件为真,则保留原始值;如果为假,则替换为指定的值。在这里,如果Paid不是’Yes’,我们将Sales列的值替换为’0’,这样在后续提取数字时,这些项就会被计为0。
# 仅汇总已支付(Paid == 'Yes')的商品销售额 paid_sales_processed = df['Sales'].where(df['Paid'] == 'Yes', other='0') # 从处理后的Sales列中提取数字并转换为整数 numeric_paid_sales = paid_sales_processed.str.extract('^(d+)', expand=False).astype(int) # 按Category汇总已支付商品销售额 total_paid_sales_per_category = numeric_paid_sales.groupby(df['Category']).sum() print("n按类别汇总的已支付商品销售额:") print(total_paid_sales_per_category)
输出结果:
按类别汇总的已支付商品销售额: Category Chair 3 Cushion 8 Mats 12 Table 4 Name: Sales, dtype: int64
通过where方法,我们有效地将未支付的销售额在提取阶段就“归零”,从而实现了精确的条件聚合。
注意事项与最佳实践
- 正则表达式的精确性:str.extract的强大之处在于其对正则表达式的支持。确保你的正则表达式能够准确匹配目标数据,同时避免意外匹配。例如,如果数字可能出现在字符串的中间,^就不适用,可能需要更复杂的模式。
- 数据类型转换:在进行数值计算前,务必将提取的字符串转换为适当的数值类型(如int或float)。
- 错误处理:如果str.extract未能匹配到任何内容,它将返回NaN。尝试将NaN直接转换为int会引发错误。在实际应用中,你可能需要在使用astype(int)之前,先用fillna(0)填充NaN值,或者使用pd.to_numeric(errors=’coerce’)来将无法转换的值变为NaN,然后再处理。
# 示例:处理可能出现的NaN值 # extracted_sales_with_nan = df['SomeColumn'].str.extract('^(d+)', expand=False) # numeric_sales_safe = extracted_sales_with_nan.fillna('0').astype(int) # 先填充再转换 # 或者 # numeric_sales_safe = pd.to_numeric(extracted_sales_with_nan, errors='coerce').fillna(0).astype(int)
- 性能考虑:str.extract是Pandas的向量化字符串操作之一,通常比使用apply结合Python原生的字符串操作(如re.findall)更高效,尤其是在处理大型数据集时。
总结
本教程详细介绍了如何在Pandas DataFrame中处理包含混合数字和文本的列,并进行分组聚合。我们学习了以下关键技术:
- 使用str.extract结合正则表达式从字符串中精确提取数值。
- 通过astype()方法将提取的字符串转换为数值类型。
- 利用groupby()和sum()方法进行数据聚合。
- 通过where()方法实现条件性数据预处理和聚合。
掌握这些技术将大大提高您在处理非结构化或半结构化数据时的效率和灵活性。
python go 正则表达式 app 工具 ai Python 正则表达式 pandas 数据类型 Float Object 字符串 int 值类型 整数类型 字符串类型 类型转换 table 数据分析