Python如何统计分组内不重复的元素个数_聚合时指定nunique统计函数

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

Python分组去重计数：用好nunique()，避开这些坑

在数据分析的日常里，分组后统计不重复元素个数，是个高频需求。比如，想知道每个品类下有多少独立用户，或者每个区域每年有多少种不同的产品在售。这时候，pandas里的nunique()函数就该登场了。

nunique()是pandas中专用于分组去重计数的高效方法，默认忽略NaN，支持dropna=False将NaN视为独立值，需明确指定目标列，不适用于不可哈希类型。

Python如何统计分组内不重复的元素个数_聚合时指定nunique统计函数

groupby后直接用nunique()就能统计分组内不重复元素个数

用pandas.DataFrame.groupby做分组聚合时，nunique()就是那个为“去重计数”量身打造的内置方法。它比先unique()再len()的“组合拳”要简洁高效得多，而且在处理NaN值时也有一套默认逻辑——直接忽略不计。

这里有个常见的“坑”需要先避开：千万别把它和count()或size()搞混了。后两者统计的是非空值总数或总行数，完全不会帮你做去重。

NaN处理策略：nunique()默认忽略NaN。但如果业务上需要把“空值”也视为一个独立的类别，加上参数dropna=False就行。
适用列类型：无论是数值列还是字符串列，它都能轻松应对。但要注意，如果列里是列表、字典这类嵌套结构，直接调用会报TypeError: unhashable type的错误。
性能优势：比起用apply(lambda x: x.nunique())这种通用但稍慢的方式，直接调用nunique()在数据量大的时候优势更明显。

单列分组 + 单目标列统计：最常用写法

这是最经典的场景。比如，按category分组，然后看看每组里有多少个不重复的user_id：

df.groupby('category')['user_id'].nunique()

这段代码返回的是一个pandas.Series，索引就是各个category的值，对应的值就是去重后的计数结果。如果想把它变回一个规整的DataFrame，在后面接上.reset_index(name='nunique_user')即可。

立即学习“Python免费学习笔记（深入）”；

关于NaN的再提醒：如果目标列里存在大量NaN，并且业务逻辑认为“空用户”本身也代表一种状态，记得用.nunique(dropna=False)。
一个关键细节：列名一定要写对。直接写df.groupby('category').nunique()，会对所有数值列进行去重计数，而不是你想象中的某一列。务必用['col']或[['col']]来明确指定目标列。

多列分组 + 多列分别统计nunique

需求升级了怎么办？比如，想按“地区”和“年份”双重维度分组，同时统计“产品ID”、“卖家ID”和“国家”各自的不重复数量。这时候，用字典形式传给agg()函数就非常清晰：

df.groupby(['region', 'year']).agg({
    'product_id': 'nunique',
    'seller_id': 'nunique',
    'country': 'nunique'
})

得到的结果是一个带有MultiIndex索引的DataFrame，列名就是刚才指定的各个字段，值就是对应的nunique统计结果。

书写规范：字段名和聚合函数名都要用引号包起来（比如'nunique'）。如果忘了引号，直接写nunique，会引发NameError。
混合聚合：如果想对同一列既统计不重复数，又求最大值，可以写成'product_id': ['nunique', 'max']。不过要注意，这样返回的列名会变成多级索引。
风格统一：尽量避免在同一个agg字典里混用字符串函数名和lambda表达式。虽然像{'a': 'nunique', 'b': lambda x: x.nunique()}这样的写法也能运行，但无论是可读性还是性能，都不如全部使用字符串来得干脆。

遇到“unhashable type”错误怎么办

这是使用nunique()时一个典型的拦路虎。当目标列的数据类型是列表（list）、字典（dict）或集合（set）这类不可哈希（unhashable）的类型时，直接调用就会抛出TypeError: unhashable type: 'list'。原因在于，nunique()的底层实现依赖于set()来去重，而列表是不能直接丢进集合里的。

解决办法不是去修改源码，而是要在调用前，把数据转换成可哈希的表示形式：

列表列处理：如果列表内的元素本身是可哈希的（比如字符串、数字），可以将其转换为元组（tuple）。例如：df['tags_tuple'] = df['tags'].apply(lambda x: tuple(x) if isinstance(x, list) else None)，然后对tags_tuple列使用nunique()。
字典列处理：可以考虑将其序列化。比如用frozenset(dict.items())，或者更稳妥地，用json.dumps(sorted(dict.items()))转换成JSON字符串（排序是为了保证顺序一致，避免因键顺序不同导致相同字典被误判为不同）。
通用备选方案：如果转换起来太麻烦，一个更直接但稍慢的思路是：先基于分组键和目标列做去重（drop_duplicates），然后再计数。例如：df.drop_duplicates(['group_col', 'target_col']).groupby('group_col').size()。

总而言之，nunique()看似简单，但列的数据类型、NaN的处理策略、以及嵌套结构的应对这三点最容易让人踩坑。实际使用时，养成好习惯，先用df['col'].dtype和df['col'].head()快速瞄一眼数据的形态，往往比埋头硬试要高效得多。

本文转载于：https://www.php.cn/faq/2320227.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Python自动化识别验证码图片_tesseract-ocr实现OCR识别

下一篇：Python如何监听全局键盘按键实现自动化快捷键触发

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

如何在CentOS上集成Go语言工具

在CentOS上集成Go语言工具想在CentOS系统里把Go语言的开发环境搭建起来？这事儿其实不难，跟着一套清晰的步骤走，很快就能搞定。下面这份指南，会带你从安装环境开始，一路走到工具配置和编辑器集成，手把手让你在CentOS上跑通Go。 1. 安装Go语言环境万事开头先装Go。对于CentOS

5分钟前 0
正版软件

如何在CentOS上配置Go路径

在CentOS上配置Go路径想在CentOS系统里顺畅地使用Go语言开发，正确配置环境变量是关键一步。这主要涉及设置GOROOT和GOPATH两个核心变量。下面这份操作指南，能帮你快速完成配置。第一步：确保Go已安装首先，你得确认系统里已经安装了Go。如果还没安装，直接去Go语言的官方网站下载

5分钟前 0
正版软件

CentOS中Go语言安装指南

在 CentOS 系统中安装 Go 语言想在 CentOS 上搭建 Go 开发环境？别担心，过程其实很清晰。主流方法有两种，你可以根据自己对“省心”和“追新”的需求来选择。方法一：通过 YUM 包管理器安装 (简单快捷) 这个方法最适合追求效率、希望快速搞定环境的场景。它的优点是命令简单，一步到

6分钟前 0
正版软件

如何在CentOS上设置Go环境

在CentOS上设置Go环境想在CentOS系统上搭建Go开发环境？这事儿其实没想象中那么复杂。只要跟着下面这几个清晰的步骤走，你很快就能让Go在服务器上跑起来。整个过程的核心，其实就是下载、解压、配置环境变量，最后验证。咱们一步步来。 1. 下载Go安装包第一步，自然是去获取Go的官方安装包。

6分钟前 0
正版软件

CentOS下Go语言配置步骤

在CentOS上配置Go语言环境：两种主流方法详解为CentOS系统搭建Go语言开发环境，通常有两种主流路径可选。选择哪一种，很大程度上取决于你对Go版本新鲜度的要求。下面就来详细拆解这两种方法，帮你快速完成部署。方法一：通过YUM包管理器安装（追求简便，版本可能较旧）如果你需要快速搭建一个可

7分钟前 0