商城首页欢迎来到中国正版软件门户

您的位置:首页 >Python如何统计分组内不重复的元素个数_聚合时指定nunique统计函数

Python如何统计分组内不重复的元素个数_聚合时指定nunique统计函数

  发布于2026-05-03 阅读(0)

扫一扫,手机访问

Python分组去重计数:用好nunique(),避开这些坑

在数据分析的日常里,分组后统计不重复元素个数,是个高频需求。比如,想知道每个品类下有多少独立用户,或者每个区域每年有多少种不同的产品在售。这时候,pandas里的nunique()函数就该登场了。

nunique()是pandas中专用于分组去重计数的高效方法,默认忽略NaN,支持dropna=False将NaN视为独立值,需明确指定目标列,不适用于不可哈希类型。

Python如何统计分组内不重复的元素个数_聚合时指定nunique统计函数

groupby后直接用nunique()就能统计分组内不重复元素个数

pandas.DataFrame.groupby做分组聚合时,nunique()就是那个为“去重计数”量身打造的内置方法。它比先unique()len()的“组合拳”要简洁高效得多,而且在处理NaN值时也有一套默认逻辑——直接忽略不计。

这里有个常见的“坑”需要先避开:千万别把它和count()size()搞混了。后两者统计的是非空值总数或总行数,完全不会帮你做去重。

  • NaN处理策略nunique()默认忽略NaN。但如果业务上需要把“空值”也视为一个独立的类别,加上参数dropna=False就行。
  • 适用列类型:无论是数值列还是字符串列,它都能轻松应对。但要注意,如果列里是列表、字典这类嵌套结构,直接调用会报TypeError: unhashable type的错误。
  • 性能优势:比起用apply(lambda x: x.nunique())这种通用但稍慢的方式,直接调用nunique()在数据量大的时候优势更明显。

单列分组 + 单目标列统计:最常用写法

这是最经典的场景。比如,按category分组,然后看看每组里有多少个不重复的user_id

df.groupby('category')['user_id'].nunique()

这段代码返回的是一个pandas.Series,索引就是各个category的值,对应的值就是去重后的计数结果。如果想把它变回一个规整的DataFrame,在后面接上.reset_index(name='nunique_user')即可。

立即学习“Python免费学习笔记(深入)”;

  • 关于NaN的再提醒:如果目标列里存在大量NaN,并且业务逻辑认为“空用户”本身也代表一种状态,记得用.nunique(dropna=False)
  • 一个关键细节:列名一定要写对。直接写df.groupby('category').nunique(),会对所有数值列进行去重计数,而不是你想象中的某一列。务必用['col'][['col']]来明确指定目标列。

多列分组 + 多列分别统计nunique

需求升级了怎么办?比如,想按“地区”和“年份”双重维度分组,同时统计“产品ID”、“卖家ID”和“国家”各自的不重复数量。这时候,用字典形式传给agg()函数就非常清晰:

df.groupby(['region', 'year']).agg({
    'product_id': 'nunique',
    'seller_id': 'nunique',
    'country': 'nunique'
})

得到的结果是一个带有MultiIndex索引的DataFrame,列名就是刚才指定的各个字段,值就是对应的nunique统计结果。

  • 书写规范:字段名和聚合函数名都要用引号包起来(比如'nunique')。如果忘了引号,直接写nunique,会引发NameError
  • 混合聚合:如果想对同一列既统计不重复数,又求最大值,可以写成'product_id': ['nunique', 'max']。不过要注意,这样返回的列名会变成多级索引。
  • 风格统一:尽量避免在同一个agg字典里混用字符串函数名和lambda表达式。虽然像{'a': 'nunique', 'b': lambda x: x.nunique()}这样的写法也能运行,但无论是可读性还是性能,都不如全部使用字符串来得干脆。

遇到“unhashable type”错误怎么办

这是使用nunique()时一个典型的拦路虎。当目标列的数据类型是列表(list)、字典(dict)或集合(set)这类不可哈希(unhashable)的类型时,直接调用就会抛出TypeError: unhashable type: 'list'。原因在于,nunique()的底层实现依赖于set()来去重,而列表是不能直接丢进集合里的。

解决办法不是去修改源码,而是要在调用前,把数据转换成可哈希的表示形式:

  • 列表列处理:如果列表内的元素本身是可哈希的(比如字符串、数字),可以将其转换为元组(tuple)。例如:df['tags_tuple'] = df['tags'].apply(lambda x: tuple(x) if isinstance(x, list) else None),然后对tags_tuple列使用nunique()
  • 字典列处理:可以考虑将其序列化。比如用frozenset(dict.items()),或者更稳妥地,用json.dumps(sorted(dict.items()))转换成JSON字符串(排序是为了保证顺序一致,避免因键顺序不同导致相同字典被误判为不同)。
  • 通用备选方案:如果转换起来太麻烦,一个更直接但稍慢的思路是:先基于分组键和目标列做去重(drop_duplicates),然后再计数。例如:df.drop_duplicates(['group_col', 'target_col']).groupby('group_col').size()

总而言之,nunique()看似简单,但列的数据类型、NaN的处理策略、以及嵌套结构的应对这三点最容易让人踩坑。实际使用时,养成好习惯,先用df['col'].dtypedf['col'].head()快速瞄一眼数据的形态,往往比埋头硬试要高效得多。

本文转载于:https://www.php.cn/faq/2320227.html 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注