您的位置:首页 >Python如何统计分组内不重复的元素个数_聚合时指定nunique统计函数
发布于2026-05-03 阅读(0)
扫一扫,手机访问
在数据分析的日常里,分组后统计不重复元素个数,是个高频需求。比如,想知道每个品类下有多少独立用户,或者每个区域每年有多少种不同的产品在售。这时候,pandas里的nunique()函数就该登场了。
nunique()是pandas中专用于分组去重计数的高效方法,默认忽略NaN,支持dropna=False将NaN视为独立值,需明确指定目标列,不适用于不可哈希类型。

用pandas.DataFrame.groupby做分组聚合时,nunique()就是那个为“去重计数”量身打造的内置方法。它比先unique()再len()的“组合拳”要简洁高效得多,而且在处理NaN值时也有一套默认逻辑——直接忽略不计。
这里有个常见的“坑”需要先避开:千万别把它和count()或size()搞混了。后两者统计的是非空值总数或总行数,完全不会帮你做去重。
nunique()默认忽略NaN。但如果业务上需要把“空值”也视为一个独立的类别,加上参数dropna=False就行。TypeError: unhashable type的错误。apply(lambda x: x.nunique())这种通用但稍慢的方式,直接调用nunique()在数据量大的时候优势更明显。这是最经典的场景。比如,按category分组,然后看看每组里有多少个不重复的user_id:
df.groupby('category')['user_id'].nunique()
这段代码返回的是一个pandas.Series,索引就是各个category的值,对应的值就是去重后的计数结果。如果想把它变回一个规整的DataFrame,在后面接上.reset_index(name='nunique_user')即可。
立即学习“Python免费学习笔记(深入)”;
NaN,并且业务逻辑认为“空用户”本身也代表一种状态,记得用.nunique(dropna=False)。df.groupby('category').nunique(),会对所有数值列进行去重计数,而不是你想象中的某一列。务必用['col']或[['col']]来明确指定目标列。需求升级了怎么办?比如,想按“地区”和“年份”双重维度分组,同时统计“产品ID”、“卖家ID”和“国家”各自的不重复数量。这时候,用字典形式传给agg()函数就非常清晰:
df.groupby(['region', 'year']).agg({
'product_id': 'nunique',
'seller_id': 'nunique',
'country': 'nunique'
})
得到的结果是一个带有MultiIndex索引的DataFrame,列名就是刚才指定的各个字段,值就是对应的nunique统计结果。
'nunique')。如果忘了引号,直接写nunique,会引发NameError。'product_id': ['nunique', 'max']。不过要注意,这样返回的列名会变成多级索引。agg字典里混用字符串函数名和lambda表达式。虽然像{'a': 'nunique', 'b': lambda x: x.nunique()}这样的写法也能运行,但无论是可读性还是性能,都不如全部使用字符串来得干脆。这是使用nunique()时一个典型的拦路虎。当目标列的数据类型是列表(list)、字典(dict)或集合(set)这类不可哈希(unhashable)的类型时,直接调用就会抛出TypeError: unhashable type: 'list'。原因在于,nunique()的底层实现依赖于set()来去重,而列表是不能直接丢进集合里的。
解决办法不是去修改源码,而是要在调用前,把数据转换成可哈希的表示形式:
tuple)。例如:df['tags_tuple'] = df['tags'].apply(lambda x: tuple(x) if isinstance(x, list) else None),然后对tags_tuple列使用nunique()。frozenset(dict.items()),或者更稳妥地,用json.dumps(sorted(dict.items()))转换成JSON字符串(排序是为了保证顺序一致,避免因键顺序不同导致相同字典被误判为不同)。drop_duplicates),然后再计数。例如:df.drop_duplicates(['group_col', 'target_col']).groupby('group_col').size()。总而言之,nunique()看似简单,但列的数据类型、NaN的处理策略、以及嵌套结构的应对这三点最容易让人踩坑。实际使用时,养成好习惯,先用df['col'].dtype和df['col'].head()快速瞄一眼数据的形态,往往比埋头硬试要高效得多。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9