Pandas DataFrame 多列排序并自定义排序顺序

Pandas DataFrame 多列排序并自定义排序顺序

本文介绍了如何使用 Pandas DataFrame 对多列进行排序,并自定义每一列的排序顺序(升序或降序)。通过 sort_values() 函数和 ascending 参数,可以灵活地控制 DataFrame 的排序方式,满足各种复杂的排序需求。

Pandas 库提供了强大的数据处理能力,其中 DataFrame 是最常用的数据结构之一。对 DataFrame 进行排序是数据分析中常见的操作。当需要按照多个列进行排序,并且每一列的排序顺序不同时,就需要用到 sort_values() 函数的灵活配置。

使用 sort_values() 函数进行多列排序

sort_values() 函数允许指定多个列进行排序,并通过 ascending 参数控制每一列的排序顺序。ascending 参数是一个布尔值列表,与 by 参数指定的列一一对应,True 表示升序,False 表示降序。

示例代码

假设我们有一个名为 df 的 DataFrame,包含 ‘A’、’B’ 和 ‘C’ 三列,我们希望先按照 ‘A’ 列升序排序,然后按照 ‘B’ 列降序排序,最后按照 ‘C’ 列升序排序。代码如下:

Pandas DataFrame 多列排序并自定义排序顺序

Follow

Follow是一个集成了人工智能、区块链和社交功能的下一代RSS信息浏览器。

Pandas DataFrame 多列排序并自定义排序顺序162

查看详情 Pandas DataFrame 多列排序并自定义排序顺序

import pandas as pd  # 创建示例 DataFrame data = {'A': [3, 1, 2, 3, 1],         'B': [5, 4, 6, 2, 1],         'C': [7, 8, 9, 10, 11]} df = pd.DataFrame(data)  print("原始 DataFrame:") print(df)  # 按照 A 列升序,B 列降序,C 列升序排序 df_sorted = df.sort_values(by=['A', 'B', 'C'], ascending=[True, False, True])  print("n排序后的 DataFrame:") print(df_sorted)

代码解释

  1. import pandas as pd: 导入 Pandas 库。
  2. data = {‘A’: [3, 1, 2, 3, 1], ‘B’: [5, 4, 6, 2, 1], ‘C’: [7, 8, 9, 10, 11]}: 创建示例数据字典。
  3. df = pd.DataFrame(data): 将数据字典转换为 DataFrame。
  4. df.sort_values(by=[‘A’, ‘B’, ‘C’], ascending=[True, False, True]): 调用 sort_values() 函数进行排序。
    • by=[‘A’, ‘B’, ‘C’]: 指定按照 ‘A’、’B’ 和 ‘C’ 列进行排序。
    • ascending=[True, False, True]: 指定 ‘A’ 列升序,’B’ 列降序,’C’ 列升序。
  5. print(df_sorted): 打印排序后的 DataFrame。

注意事项

  • by 参数必须是一个列表,即使只按照一列排序,也需要写成 by=[‘column_name’]。
  • ascending 参数的长度必须与 by 参数的长度相同,否则会报错。
  • ascending 参数的每个元素必须是布尔值 (True 或 False)。
  • sort_values() 函数默认返回一个新的排序后的 DataFrame,不会修改原始 DataFrame。如果需要在原始 DataFrame 上进行修改,可以使用 inplace=True 参数。例如:df.sort_values(by=[‘A’, ‘B’, ‘C’], ascending=[True, False, True], inplace=True)。

总结

通过 sort_values() 函数和 ascending 参数,可以方便地对 Pandas DataFrame 进行多列排序,并自定义每一列的排序顺序。这种灵活的排序方式可以满足各种复杂的数据分析需求。 熟练掌握此方法,可以更有效地处理和分析数据。

pandas print 数据结构 数据分析

上一篇
下一篇