Pandas DataFrame 多列排序并自定义排序顺序

本文介绍了如何使用 Pandas DataFrame 对多列进行排序，并自定义每一列的排序顺序（升序或降序）。通过 sort_values() 函数和 ascending 参数，可以灵活地控制 DataFrame 的排序方式，满足各种复杂的排序需求。

Pandas 库提供了强大的数据处理能力，其中 DataFrame 是最常用的数据结构之一。对 DataFrame 进行排序是数据分析中常见的操作。当需要按照多个列进行排序，并且每一列的排序顺序不同时，就需要用到 sort_values() 函数的灵活配置。

使用 sort_values() 函数进行多列排序

sort_values() 函数允许指定多个列进行排序，并通过 ascending 参数控制每一列的排序顺序。ascending 参数是一个布尔值列表，与 by 参数指定的列一一对应，True 表示升序，False 表示降序。

示例代码

假设我们有一个名为 df 的 DataFrame，包含 ‘A’、’B’ 和 ‘C’ 三列，我们希望先按照 ‘A’ 列升序排序，然后按照 ‘B’ 列降序排序，最后按照 ‘C’ 列升序排序。代码如下：

Follow是一个集成了人工智能、区块链和社交功能的下一代RSS信息浏览器。

162

查看详情

import pandas as pd  # 创建示例 DataFrame data = {'A': [3, 1, 2, 3, 1],         'B': [5, 4, 6, 2, 1],         'C': [7, 8, 9, 10, 11]} df = pd.DataFrame(data)  print("原始 DataFrame:") print(df)  # 按照 A 列升序，B 列降序，C 列升序排序 df_sorted = df.sort_values(by=['A', 'B', 'C'], ascending=[True, False, True])  print("n排序后的 DataFrame:") print(df_sorted)

代码解释

import pandas as pd: 导入 Pandas 库。
data = {‘A’: [3, 1, 2, 3, 1], ‘B’: [5, 4, 6, 2, 1], ‘C’: [7, 8, 9, 10, 11]}: 创建示例数据字典。
df = pd.DataFrame(data): 将数据字典转换为 DataFrame。
df.sort_values(by=[‘A’, ‘B’, ‘C’], ascending=[True, False, True]): 调用 sort_values() 函数进行排序。
- by=[‘A’, ‘B’, ‘C’]: 指定按照 ‘A’、’B’ 和 ‘C’ 列进行排序。
- ascending=[True, False, True]: 指定 ‘A’ 列升序，’B’ 列降序，’C’ 列升序。
print(df_sorted): 打印排序后的 DataFrame。

注意事项

by 参数必须是一个列表，即使只按照一列排序，也需要写成 by=[‘column_name’]。
ascending 参数的长度必须与 by 参数的长度相同，否则会报错。
ascending 参数的每个元素必须是布尔值 (True 或 False)。
sort_values() 函数默认返回一个新的排序后的 DataFrame，不会修改原始 DataFrame。如果需要在原始 DataFrame 上进行修改，可以使用 inplace=True 参数。例如：df.sort_values(by=[‘A’, ‘B’, ‘C’], ascending=[True, False, True], inplace=True)。

总结

通过 sort_values() 函数和 ascending 参数，可以方便地对 Pandas DataFrame 进行多列排序，并自定义每一列的排序顺序。这种灵活的排序方式可以满足各种复杂的数据分析需求。熟练掌握此方法，可以更有效地处理和分析数据。

推荐文章