Pandas如何提取高频行数据

　　发布于2025-12-04　阅读（0）

扫一扫，手机访问

如何利用Pandas识别并提取DataFrame中出现频率最高的行数据

本文详细介绍了如何在Pandas DataFrame中，通过结合groupby()、transform()和布尔索引，高效地找出某个特定列中出现频率最高的所有行。教程从常见的数据统计需求出发，逐步演示了如何从仅获取最大频率值，到最终提取出所有符合条件的完整行数据，包括示例代码和关键注意事项，旨在帮助用户精确地分析和筛选数据。

引言

在数据分析过程中，我们经常需要识别数据集中某个特定属性出现频率最高的情况。例如，在一个销售数据集中，我们可能想知道哪个日期有最多的销售记录，并进一步查看这些销售记录的详细信息。Pandas提供了强大的工具来处理这类需求，但仅仅使用value_counts().max()只能得到最大频率值，而无法直接获取对应的原始行数据。本教程将详细阐述如何利用Pandas的groupby()、transform()和布尔索引机制，优雅地解决这一问题。

数据准备

首先，我们创建一个示例DataFrame，模拟实际的销售数据，以便进行后续的操作演示。

import pandas as pd

dfsupport = pd.DataFrame({
    'Date': ['8/12/2020','8/12/2020','13/1/2020','24/5/2020','31/10/2020','11/7/2020','11/7/2020','4/4/2020','1/2/2020'],
    'Category': ['Table','Chair','Cushion','Table','Chair','Mats','Mats','Large','Large'],
    'Sales': ['1 table','3chairs','8 cushions','3Tables','12 Chairs','12Mats','4Mats','13 Chairs and 2 Tables', '3 mats, 2 cushions 4@chairs'],
    'Paid': ['Yes','Yes','Yes','Yes','No','Yes','Yes','No','Yes'],
    'Amount': ['93.78','$51.99','44.99','38.24','£29.99','29 21 only','18','312.8','63.77' ]
})

print("原始DataFrame:")
print(dfsupport)

输出的DataFrame结构如下：

         Date Category                        Sales Paid      Amount
0   8/12/2020    Table                      1 table  Yes       93.78
1   8/12/2020    Chair                      3chairs  Yes      $51.99
2   13/1/2020  Cushion                   8 cushions  Yes       44.99
3   24/5/2020    Table                      3Tables  Yes       38.24
4  31/10/2020    Chair                    12 Chairs   No    £29.99
5   11/7/2020     Mats                       12Mats  Yes  29 21 only
6   11/7/2020     Mats                        4Mats  Yes          18
7    4/4/2020    Large       13 Chairs and 2 Tables   No       312.8
8    1/2/2020    Large  3 mats, 2 cushions 4@chairs  Yes       63.77

问题阐述与初步尝试

我们的目标是找出在Date列中出现频率最高的日期，并显示这些日期对应的所有销售记录（即完整的行数据）。

如果仅仅使用value_counts().max()，我们只能得到最大出现次数：

max_count = dfsupport['Date'].value_counts().max()
print(f"\n日期列的最大出现次数: {max_count}")

输出结果为 2，这告诉我们有某个日期出现了2次，是所有日期中出现频率最高的，但它没有告诉我们具体是哪个日期，以及这些日期对应的销售详情。

解决方案：结合 groupby() 和 transform()

为了解决上述问题，我们可以利用groupby()结合transform()来计算每个日期出现的次数，并将其广播回原始DataFrame的索引。然后，通过布尔索引筛选出那些出现次数等于最大次数的行。

以下是具体的实现步骤：

按目标列分组并计算频率： 我们首先按Date列进行分组。对于每个组，我们想知道其包含的元素数量，即该日期出现的频率。
使用 transform(len) 广播频率：transform(len)是一个关键步骤。它会在每个组内计算元素的数量（即频率），然后将这个计算结果“转换”回原始DataFrame的索引，使得每个原始行都带上其所属组的频率值。这样，我们就能得到一个与dfsupport行数相同的Series，其中每个值代表对应行的Date的出现频率。
创建布尔掩码： 计算出所有日期的频率后，我们需要找出哪些频率等于最大频率。这通过比较transform结果与transform结果的最大值来完成，生成一个布尔Series。
应用布尔索引筛选DataFrame： 最后，将生成的布尔Series作为索引应用于原始DataFrame，即可筛选出所有符合条件的行。

# 1. 计算每个日期的出现频率，并使用transform将其广播回原始DataFrame的索引
# s 将是一个与 dfsupport 行数相同的 Series，其中每个值是对应日期的出现频率
s = dfsupport.groupby('Date')['Date'].transform(len)

# 2. 找出最大的频率值
max_frequency = s.max()

# 3. 创建一个布尔掩码，标记出频率等于最大频率的行
# s.eq(max_frequency) 等同于 s == max_frequency
boolean_mask = s.eq(max_frequency)

# 4. 使用布尔掩码筛选原始DataFrame
most_frequent_date_sales = dfsupport[boolean_mask]

print("\n出现频率最高的日期及其所有销售记录:")
print(most_frequent_date_sales)

输出结果：

出现频率最高的日期及其所有销售记录:
        Date Category    Sales Paid      Amount
0  8/12/2020    Table  1 table  Yes       93.78
1  8/12/2020    Chair  3chairs  Yes      $51.99
5  11/7/2020     Mats   12Mats  Yes  29 21 only
6  11/7/2020     Mats    4Mats  Yes          18

从输出可以看出，8/12/2020和11/7/2020都出现了两次，是频率最高的日期，并且我们成功地提取出了这两个日期对应的所有详细销售记录。

关键概念解析

groupby('Date'): 这是一个将DataFrame按照Date列的值进行分组的操作。它创建了一个DataFrameGroupBy对象。
['Date'].transform(len):
- ['Date']：在分组后，我们选择Date列来应用transform函数。
- transform(len)：transform方法会为每个组应用一个函数（这里是len，即计算组的大小），然后将结果返回一个与原始DataFrame长度相同的Series。这个Series的每个值对应原始DataFrame中相应行的组计算结果。这与apply不同，apply会返回一个聚合结果，而transform的目的是保持原始DataFrame的形状，将聚合结果“映射”回每个原始行。
布尔索引: dfsupport[boolean_mask] 是一种非常强大的Pandas筛选数据的方法。当传递一个布尔Series给DataFrame的索引器时，只有布尔Series中值为True的行才会被保留。

注意事项与扩展

通用性: 这种方法不仅适用于Date列，也适用于DataFrame中的任何其他列，例如Category、Paid等。只需将groupby()中的列名替换为目标列即可。
处理并列情况: 这种方法能够自动处理有多个列值并列拥有最高频率的情况。如本例中，8/12/2020和11/7/2020都出现了两次，它们都被正确地筛选了出来。
性能: 对于大型数据集，groupby().transform()通常比循环或多次筛选更高效，因为它利用了Pandas底层的优化。
仅获取频率最高的日期/类别本身: 如果你只需要知道哪个日期或类别是频率最高的（而不是对应的所有行），你可以直接使用dfsupport['Date'].value_counts().index[0]（如果只有一个最高频率）或dfsupport['Date'].value_counts().head(n)来获取前N个最高频率的项。但本教程的目的是获取所有相关行。

总结

通过本教程，我们学习了如何利用Pandas的groupby()和transform()方法，结合布尔索引，高效且准确地找出DataFrame中某个特定列出现频率最高的所有行数据。这种技术在数据清洗、探索性数据分析和报告生成中非常实用，能够帮助我们深入理解数据分布并提取关键信息。掌握这一技巧，将大大提升你在Pandas数据处理方面的能力。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：163邮箱登录入口及网页版地址

下一篇：大众点评为何不支持支付宝支付方式解析

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

AppDomain.CurrentDomain.UnhandledException的作用是捕获应用程序域中未处理的异常，常用于全局异常处理，确保程序在发生未预

使用AppDomain.CurrentDomain.UnhandledException只需订阅该事件并在事件处理程序中编写异常处理逻辑，如记录日志、清理资源并调用Environment.Exit优雅退出；2.try-catch用于处理可预测的局部异常，而UnhandledException作为全局防线捕获未被处理的异常，二者应结合使用，不可相互替代；3.在ASP.NETCore中应使用异常处理中间件实现全局异常处理，通过在请求管道中捕获异常并返回统一响应，相比AppDomain事件，中间件更契合Web应

9分钟前异常处理全局异常 0
正版软件

Windows下MSI安装PHP详细教程

通过MSI安装包可快速在Windows系统上完成PHP的安装与基础配置。1、从官网下载适用于系统的PHPMSI安装文件，推荐选择VC15x64非线程安全版本。2、运行下载的.msi文件，选择“DevelopmentServer”类型，指定安装路径如C:\php，完成安装向导。3、将PHP安装目录添加至系统环境变量Path中，确保命令行可全局调用php命令。4、打开cmd执行php-v，若显示PHP版本信息则表明安装成功。5、在安装目录中将php.ini-development复制为php.ini，并编辑该

24分钟前 PHP环境搭建 0
正版软件

RFID读取ID自动跳转网站方法

本文介绍如何将RFID标签的唯一ID映射到指定URL，借助NodeMCU采集数据并发送至PHP后端，再通过HTTP重定向（301/302）自动跳转至目标网站，实现“刷卡即访问”的智能联动。

39分钟前 0
正版软件

如何编写类型安全的Python函数：接收元素和同类型列表

本文介绍如何在Python中定义一个函数，使其能接收任意类型的元素和仅包含该类型元素的列表，并通过类型提示与运行时检查实现类型安全性，避免手动遍历断言。

54分钟前 0
正版软件

类与对象的关系是什么？

类是模板，对象是用new创建的具体实例；类不占内存、不能执行方法，仅描述结构，真正存储数据和执行行为的是对象，每个对象拥有独立字段值，静态成员除外。

1小时前 16:30 0