如何在 Python 中利用 set() 集合结构快速实现列表数据的自动去重操作

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

如何在 Python 中利用 set() 集合结构快速实现列表数据的自动去重操作

如何在 Python 中实现列表去重

面对一个包含重复项的列表，如何高效地“瘦身”？直接用 set() 转换，几乎是瞬间完成去重。不过，天下没有免费的午餐，这种便捷背后也藏着两个“代价”：原始顺序会丢失，并且元素类型必须是可哈希的。接下来，我们就深入聊聊这背后的原理与应对之策。

为什么 set() 能快速去重

关键在于集合（set）的底层实现。它基于哈希表，这使得插入和查找操作的平均时间复杂度都能达到 O(1)。因此，将列表转换为集合的过程，整体复杂度接近 O(n)。想象一下，如果使用传统的嵌套循环来逐个比对元素，时间复杂度会飙升至 O(n²)。两相对比，set() 的效率提升堪称降维打击。

哈希表的天然特性：重复元素在哈希表中只会对应同一个键值，从根本上杜绝了重复存储。
构造函数的自动过滤：Python 的 set() 构造函数在构建过程中，会自动跳过哈希值已存在的元素。
适用范围明确：这套机制完美适用于字符串、数字、元组等所有可哈希（hashable）的数据类型。

基础用法：一行代码去重

最简洁的写法莫过于：unique_list = list(set(original_list))。

例如，处理这样一个列表：

nums = [3, 1, 4, 1, 5, 9, 2, 6, 5]
result = list(set(nums))  # 结果可能是 [1, 2, 3, 4, 5, 6, 9]（顺序无法保证）

这里有两个细节值得注意：

操作会生成一个新列表，原始列表保持不变。
去重后的元素顺序是随机的（因为集合本身无序）。如果业务逻辑要求保持元素首次出现的顺序，就需要更精细的方案。

保持原始顺序的去重方案

当顺序至关重要时，dict.fromkeys() 方法（Python 3.7及以上版本保证字典插入顺序）是一个优雅的选择：

unique_list = list(dict.fromkeys(original_list))

这行代码巧妙地利用了字典键的唯一性来去重，同时依赖现代Python字典的有序性来保序。其性能与 set() 相近，但代码意图更加清晰直观。

优势明显：相比手动写循环判断元素是否已存在于一个临时集合，这种方法更快、更干净。
限制相同：它同样要求列表元素是可哈希的。
核心挑战：对于列表、字典等不可哈希的类型，这个方法会直接失效。此时，就需要先将元素转换为可哈希的形式。

不可哈希类型的去重技巧

当你的列表里包含了字典或嵌套列表时，直接调用 set() 会触发 TypeError: unhashable type 错误。别慌，思路其实很清晰：先将这些“不规则”的元素标准化为可哈希的标识，去重后再还原回来。

字典列表：可以先将每个字典通过 json.dumps(d, sort_keys=True) 转换为排序后、标准化的JSON字符串。对这些字符串去重后，再通过 json.loads() 反序列化回字典。
嵌套列表：可以尝试使用 tuple(map(tuple, nested_list)) 将其转换为元组的元组（前提是内层元素也可哈希）。
通用稳妥法：如果上述转换过于复杂或不安全，最可靠的方法是使用循环，并配合一个 seen = set() 来记录已遍历元素的可哈希标识（比如使用对象的 id，或根据业务逻辑计算出的自定义唯一键）。

简单总结一下：set() 能快速去重，因其底层用哈希表，平均 O(1) 查找，总复杂度近 O(n)；但会丢失顺序且仅支持可哈希类型。保序可用 dict.fromkeys()，处理不可哈希类型则需先将其转为可哈希形式。

本文转载于：https://www.php.cn/faq/2411091.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：怎么利用匿名内部类的闭包特性在函数式接口中引用外部动态对象状态

下一篇：如何在 Java 中使用 BigDecimal.divideAndRemainder() 一次性获取除法的商和余数结果

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

C#使用SemaphoreSlim进行并发控制的最佳实践

一、为什么需要控制异步并发？在现代异步编程中，高效处理I/O密集型操作是提升应用性能的关键。然而，不加控制的并发往往会导致灾难性后果——下游服务过载、数据库连接池耗尽、内存暴涨。本文将深入探讨C#中控制异步并发的标准解决方案：SemaphoreSlim，并提供生产级别的使用模式。设想一个场景：需

5分钟前 0
正版软件

如何有效利用Node.js日志进行开发

有效利用Node.js日志进行开发想让你的Node.js应用运行得更稳健、问题定位更迅速吗？关键在于用好日志。它不仅是程序运行的“黑匣子”，更是洞察性能瓶颈、优化用户体验的得力助手。下面这十个建议，或许能帮你把日志从简单的信息输出，变成强大的开发运维工具。 1. 选择合适的日志库工欲善其事，必先

5分钟前 0
正版软件

Linux下Golang日志怎么收集

Linux下Golang日志收集实践聊到日志收集，很多团队都踩过坑。方案选对了，排查效率能翻倍；选错了，可能就是一场运维噩梦。今天咱们就来拆解一下，在Linux环境下，如何为Golang应用搭建一套既可靠又高效的日志收集体系。一总体思路与方案选型一套清晰的日志收集链路，通常遵循“应用输出 -

6分钟前 0
正版软件

如何用deluser移除特定组用户

deluser命令：从特定组中移除用户的操作指南在Linux系统管理中，deluser命令是个相当实用的工具，专门用来处理用户账户的移除工作。不过这里有个常见的场景需要特别注意：有时候我们只是想将某个用户从特定的组里“请出去”，而不是彻底删除他的账户。这时候，deluser命令搭配-G选项就能派上

6分钟前 0
正版软件

mount命令如何挂载光驱中的数据

如何使用mount命令挂载光驱数据想在Linux系统里读取光驱里的数据？用mount命令挂载一下就行。这事儿其实不复杂，跟着下面几个步骤走，很快就能搞定。第一步：找到光驱的设备名首先，你得知道系统把光驱认成了哪个设备。打开终端，输入下面这个命令： lsblk 这个命令会列出所有可用的块设备。在

7分钟前 0