Python 使用 pandas chunk 处理大文件

chunk是pandas分块读取数据时的单位，设置chunksize可返回可迭代对象，每块为小型DataFrame；示例中每次读取10000行进行处理，适用于清洗、统计、导出等场景；通过累计sum和count计算全局均值，或过滤后保存到新文件、写入数据库；需权衡chunksize大小，避免内存累积，注意跨块操作需维护中间状态。

处理大文件时，直接读取整个文件容易导致内存溢出。Python 中的 pandas 提供了 chunksize 参数，可以分块读取数据，逐块处理，有效降低内存占用。

什么是 chunk？

在使用 pandas.read_csv() 或类似方法时，设置 chunksize 参数会返回一个可迭代的对象，每次只加载一部分数据。每一块（chunk）都是一个小型 DataFrame，可以单独处理。

示例代码：

import pandas as pd <h1>指定每次读取 10000 行</h1><p>chunk_size = 10000 file_path = 'large_data.csv'</p><p>for chunk in pd.read_csv(file_path, chunksize=chunk_size):</p><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/00968c3c2c15" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">Python免费学习笔记（深入）</a>”；</p><h1>对每一块数据进行处理</h1><pre class="brush:php;toolbar:false;"><pre class="brush:php;toolbar:false;">print(f"处理 {len(chunk)} 行数据") # 例如：统计某一列的均值 if 'value' in chunk.columns:     print("value 列平均值:", chunk['value'].mean())

常见用途与技巧

分块读取适用于多种场景，比如数据清洗、聚合统计、写入数据库或导出新文件。

百宝箱

百宝箱是支付宝推出的一站式AI原生应用开发平台，无需任何代码基础，只需三步即可完成AI应用的创建与发布。

313

查看详情

1. 聚合全局统计信息
即使数据被分块，也可以累计计算总和、均值等。

total_sum = 0 total_count = 0 <p>for chunk in pd.read_csv(file_path, chunksize=10000): total_sum += chunk['value'].sum() total_count += len(chunk)</p><p>overall_mean = total_sum / total_count print("整体均值:", overall_mean)</p>

2. 过滤数据并保存结果
可以筛选符合条件的数据，写入新文件。

<pre class="brush:php;toolbar:false;">output_file = 'filtered_data.csv' first_chunk = True  # 控制是否写入表头 <p>for chunk in pd.read_csv(file_path, chunksize=10000): filtered = chunk[chunk['value'] > 100]</p><h1>第一次写入时包含表头，后续追加</h1><pre class="brush:php;toolbar:false;">filtered.to_csv(output_file, mode='a', header=first_chunk, index=False) first_chunk = False

3. 写入数据库
适合将大数据逐步导入数据库。

<pre class="brush:php;toolbar:false;">from sqlalchemy import create_engine <p>engine = create_engine('sqlite:///mydb.db')</p><p>for chunk in pd.read_csv(file_path, chunksize=5000): chunk.to_sql('table_name', engine, if_exists='append', index=False)</p>

注意事项

使用 chunk 处理时需要注意以下几点：

chunksize 大小需权衡：太小会增加 I/O 开销，太大仍可能耗内存，一般 5000～50000 行较合适。
确保每块数据处理完及时释放，避免累积变量占用内存。
若需去重或排序，分块处理会复杂，可能需要额外策略（如分组键哈希）。
某些操作（如跨块统计）需手动维护中间状态。

基本上就这些。合理使用 chunk 可以轻松应对远超内存容量的 CSV 文件处理任务。

大家都在看：

将Pandas月度列数据汇总至季度与年度：实战教程 Pandas数据透视：将月度数据汇总为季度和年度列 Python pandas 性能优化技巧 python中pandas如何处理缺失值（NaN）？基于相邻列条件进行累计求和的 Pandas 教程

python 大数据 app csv 数据清洗内存占用可迭代对象 red Python pandas count 对象数据库

什么是 chunk？

常见用途与技巧

注意事项

大家都在看：

推荐文章