Pandas DataFrame 高效比较：仅保留差异行与列的教程

本教程详细介绍了如何使用Pandas的compare方法高效地比较两个DataFrame，并仅提取出存在差异的行和列，同时保留指定的维度列。通过将维度列设为索引，compare方法能够识别数值变更，并通过后续处理生成一个简洁明了的差异报告，极大地简化了数据对比和变更追踪的过程。

在数据分析和处理中，我们经常需要对比两个结构相似的pandas dataframe，以找出它们之间的差异。例如，在版本控制、数据更新审计或a/b测试结果分析等场景下，快速定位并只关注那些发生变化的行和列是至关重要的。本教程将指导您如何利用pandas库的强大功能，实现这一目标。

场景描述与挑战

假设我们有两个DataFrame，df1和df2，它们包含相同的结构和大部分相同的数据，但某些行或列的特定值可能存在差异。我们的目标是生成一个新的DataFrame，其中只包含那些发生变化的行（及其对应的维度列）以及发生变化的具体列。

考虑以下两个示例DataFrame：

DataFrame 1 (df1):

pet_name	exam_day	result_1	result_2	pre_result_1
Patrick	2023-01-01	1	10	123
Patrick	2023-01-02	2	20	123
Patrick	2023-01-03	3	30	123
Patrick	2023-01-04	4	40	123

DataFrame 2 (df2):

pet_name	exam_day	result_1	result_2	pre_result_1
Patrick	2023-01-01	1	10	123
Patrick	2023-01-02	99	20	123
Patrick	2023-01-03	3	30	123
Patrick	2023-01-04	4	100	123

在这个例子中，df1和df2在以下位置存在差异：

pet_name=’Patrick’, exam_day=’2023-01-02′ 的 result_1 列
pet_name=’Patrick’, exam_day=’2023-01-04′ 的 result_2 列

我们希望最终的输出DataFrame只包含这些差异，以及用于标识这些差异的维度列（pet_name和exam_day），例如：

pet_name	exam_day	result_1	result_2
Patrick	2023-01-02	2	NaN
Patrick	2023-01-02	99	NaN
Patrick	2023-01-04	NaN	40
Patrick	2023-01-04	NaN	100

传统的 merge(…, indicator=True, how=’outer’) 方法虽然能识别出有差异的行，但它会保留所有列，并且对同一行中的多个差异处理不够直观。为了达到上述精确的差异报告效果，Pandas提供了更专业的工具。

Spell.tools

高颜值ai内容营销创作工具

查看详情

使用 DataFrame.compare 方法

Pandas 1.1.0 版本引入的 DataFrame.compare 方法是解决此类问题的理想工具。它专门用于比较两个DataFrame，并以一种清晰的格式突出显示差异。

核心步骤

设置索引: 首先，将用于标识唯一记录的维度列（例如 pet_name 和 exam_day）设置为DataFrame的索引。这使得 compare 方法能够基于这些键进行行匹配和比较。
执行比较: 调用 compare 方法，传入另一个DataFrame和 align_axis=0 参数。align_axis=0 表示按行对齐并比较列值。
处理多级列索引: compare 方法的输出会有一个多级列索引，其中包含原始列名和指示差异来源（self 或 other）的内层索引。我们需要移除这个内层索引，以便后续处理。
重置索引: 最后，将之前设置的维度索引重置为常规列，使其成为最终输出DataFrame的一部分。

示例代码

import pandas as pd import numpy as np  # 示例数据 data1 = {     'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],     'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],     'result_1': [1, 2, 3, 4],     'result_2': [10, 20, 30, 40],     'pre_result_1': [123, 123, 123, 123] } df1 = pd.DataFrame(data1)  data2 = {     'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],     'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],     'result_1': [1, 99, 3, 4], # result_1 for 2023-01-02 is different     'result_2': [10, 20, 30, 100], # result_2 for 2023-01-04 is different     'pre_result_1': [123, 123, 123, 123] } df2 = pd.DataFrame(data2)  print("df1:") print(df1) print("ndf2:") print(df2)  # 1. 将维度列设置为索引 # 2. 调用 compare 方法，align_axis=0 表示按行比较列 # 3. 移除多级列索引中的内层 ('self', 'other') # 4. 重置索引，将维度列变回常规列 out = (df1.set_index(['pet_name', 'exam_day'])           .compare(df2.set_index(['pet_name', 'exam_day']), align_axis=0)           .droplevel(-1, axis=1) # 移除最内层索引 (self/other)           .reset_index())  print("n差异结果:") print(out)

输出解析

运行上述代码，您将得到如下输出：

df1:   pet_name    exam_day  result_1  result_2  pre_result_1 0  Patrick  2023-01-01         1        10           123 1  Patrick  2023-01-02         2        20           123 2  Patrick  2023-01-03         3        30           123 3  Patrick  2023-01-04         4        40           123  df2:   pet_name    exam_day  result_1  result_2  pre_result_1 0  Patrick  2023-01-01         1        10           123 1  Patrick  2023-01-02        99        20           123 2  Patrick  2023-01-03         3        30           123 3  Patrick  2023-01-04         4       100           123  差异结果:   pet_name    exam_day  result_1  result_2 0  Patrick  2023-01-02       2.0       NaN 1  Patrick  2023-01-02      99.0       NaN 2  Patrick  2023-01-04       NaN      40.0 3  Patrick  2023-01-04       NaN     100.0

可以看到，最终的 out DataFrame 准确地捕获了 df1 和 df2 之间的所有差异。对于每个有差异的行，它会生成两行记录：一行显示 df1 中的值（self），另一行显示 df2 中的值（other）。没有差异的列则显示 NaN。

详细步骤说明

df1.set_index([‘pet_name’, ‘exam_day’]): 这将 pet_name 和 exam_day 列设置为DataFrame的索引。compare 方法会使用这些索引来匹配并比较对应的行。
.compare(df2.set_index([‘pet_name’, ‘exam_day’]), align_axis=0): 这是核心的比较操作。
- df2.set_index(…) 确保两个DataFrame在比较前具有相同的索引结构。
- align_axis=0 参数告诉 compare 方法在行级别进行对齐和比较。它会查找两个DataFrame中索引相同的行，并比较这些行中所有列的值。只有存在差异的列才会被保留在结果中。
- 此步骤的直接输出将是一个具有多级列索引的DataFrame，例如：
```
                         result_1  result_2 pet_name exam_day                             Patrick  2023-01-02 self        2.0       NaN                     other      99.0       NaN          2023-01-04 self        NaN      40.0                     other       NaN     100.0
```
  其中，列名是原始列名，第二级索引 self 和 other 指示该值来自哪个DataFrame。
.droplevel(-1, axis=1): 这一步非常关键，它移除了列索引的最后一级（即 self 和 other 标识）。这样做是为了让结果DataFrame的列结构更简洁，只保留原始的列名。axis=1 指定操作对象是列索引。
.reset_index(): 最后，将之前设置为索引的 pet_name 和 exam_day 列重新转换回常规的数据列。这样，它们就作为标识符与差异值一同呈现在最终结果中。

注意事项与最佳实践

索引选择: 确保您选择的索引列能够唯一标识DataFrame中的每一条记录。如果索引不唯一，compare 方法可能无法正确匹配行。
数据类型: compare 方法在比较时会考虑数据类型。如果两个DataFrame中相同列的数据类型不同（例如，一个为整数，另一个为浮点数），即使值在数值上相同，也可能被识别为差异。
缺失值 (NaN): compare 方法会将 NaN 视为一个值进行比较。如果两个DataFrame在同一位置都为 NaN，则不会被视为差异。如果一个为 NaN 另一个为实际值，则会被视为差异。
性能: 对于非常大的DataFrame，set_index 和 compare 操作可能会消耗较多内存和时间。在处理海量数据时，请考虑其性能影响。
列的增减: compare 方法主要用于比较结构相似的DataFrame。如果两个DataFrame的列集存在显著差异（例如，一个DataFrame有而另一个没有某个列），compare 默认只会比较两个DataFrame都存在的列。

总结

DataFrame.compare 方法是Pandas中一个强大且直观的工具，专门用于识别并提取两个DataFrame之间的差异。通过合理地设置索引并进行后续处理，我们可以生成一个高度定制化的差异报告，仅显示发生变化的行和列，这对于数据审计、变更追踪和版本控制等任务具有极高的实用价值。掌握这一方法，将显著提升您在处理和分析数据变更时的效率。

大家都在看：

Python怎么升级pip和第三方库_pip包管理工具升级指南 python virtualenv和venv有什么区别_python虚拟环境工具virtualenv与venv的对比 Python怎么获取当前工作目录_Python获取当前路径操作指南向 Plotly Dash 应用图表工具栏添加全屏图标 TensorFlow中高效实现多项式回归：从深度网络到特征工程

工具 pandas 数据类型标识符对象数据分析