用字典为DataFrame添加分类列：处理子串匹配

　　发布于2025-12-26　阅读（0）

扫一扫，手机访问

使用字典为Pandas DataFrame添加分类列：处理子字符串匹配

本教程详细介绍了如何利用Python字典为Pandas DataFrame添加一个分类列。当字典的键是DataFrame中目标列文本的子字符串时，传统map方法不再适用。文章将展示如何结合使用apply方法与自定义lambda函数，高效地实现基于子字符串匹配的分类，并提供完整的代码示例及注意事项，确保数据分类的准确性和灵活性。

在数据分析和处理中，我们经常需要根据某些规则为DataFrame中的数据添加分类标签。一个常见的场景是，我们有一个包含关键词到类别的映射字典，并希望根据DataFrame某一列文本内容中是否包含这些关键词来为其分配相应的类别。然而，当字典的键并非DataFrame列中的精确值，而是其子字符串时，标准的DataFrame.map()方法便无法直接满足需求。本文将深入探讨如何优雅地解决这一问题。

遇到的挑战

假设我们有一个商品列表DataFrame，其中包含商品名称（Item列），以及一个将商品关键词映射到其类别的字典。例如：

category_dict = {
    'apple': 'fruit',
    'grape': 'fruit',
    'chickpea': 'beans',
    'coffee cup': 'tableware'
}

data = {
    'Item': [
        'apple from happy orchard',
        'grape from random vineyard',
        'chickpea and black bean mix',
        'coffee cup with dog decal'
    ],
    'Cost': [15, 20, 10, 14]
}
df = pd.DataFrame(data)

我们期望的结果是为DataFrame添加一个Category列，根据Item列中的关键词从category_dict中查找对应的类别。如果直接使用df['Item'].map(category_dict)，由于Item列中的值（如"apple from happy orchard"）与字典键（"apple"）不完全匹配，map方法将返回NaN，无法达到预期效果。

解决方案：结合apply与自定义lambda函数

解决此问题的核心在于对DataFrame的每一行（或具体到每一单元格）应用一个自定义逻辑，该逻辑能够遍历字典，检查字典键是否为单元格文本的子字符串。Pandas的apply()方法结合Python的lambda函数和生成器表达式，能够高效地实现这一目标。

以下是实现这一功能的代码示例：

import pandas as pd

# 定义分类字典
category_dict = {
    'apple': 'fruit',
    'grape': 'fruit',
    'chickpea': 'beans',
    'coffee cup': 'tableware'
}

# 创建示例DataFrame
data = {
    'Item': [
        'apple from happy orchard',
        'grape from random vineyard',
        'chickpea and black bean mix',
        'coffee cup with dog decal',
        'banana smoothie' # 添加一个没有匹配项的示例
    ],
    'Cost': [15, 20, 10, 14, 12]
}
df = pd.DataFrame(data)

# 使用apply和lambda函数添加'Category'列
df['Category'] = df['Item'].apply(
    lambda item_text: next(
        (value for key, value in category_dict.items() if key in item_text),
        None
    )
)

print("原始DataFrame：")
print(pd.DataFrame(data))
print("\n添加分类列后的DataFrame：")
print(df)

运行上述代码，将得到如下输出：

原始DataFrame：
                          Item  Cost
0     apple from happy orchard    15
1   grape from random vineyard    20
2  chickpea and black bean mix    10
3    coffee cup with dog decal    14
4            banana smoothie    12

添加分类列后的DataFrame：
                          Item  Cost   Category
0     apple from happy orchard    15      fruit
1   grape from random vineyard    20      fruit
2  chickpea and black bean mix    10      beans
3    coffee cup with dog decal    14  tableware
4            banana smoothie    12       None

代码解析

df['Item'].apply(...): apply()方法是Pandas DataFrame或Series的一个强大功能，它允许我们对Series中的每一个元素或DataFrame的每一行/列应用一个函数。在这里，我们将其应用于Item列，意味着对Item列中的每一个字符串执行一次指定的lambda函数。
lambda item_text:: 这是一个匿名函数，它接收一个参数item_text，代表Item列中的当前字符串（例如，"apple from happy orchard"）。
next((value for key, value in category_dict.items() if key in item_text), None): 这是解决方案的核心逻辑。
- (value for key, value in category_dict.items() if key in item_text): 这是一个生成器表达式。它遍历category_dict中的每一个键值对（key, value）。对于每个键key，它检查key是否作为子字符串存在于当前的item_text中。如果条件key in item_text为真，则生成器会产生对应的value。
- next(generator, default): next()函数用于从迭代器（这里是生成器表达式）中获取下一个元素。
  - 当生成器产生第一个匹配的value时，next()会立即返回这个value。这意味着一旦找到第一个匹配的关键词，就会停止搜索，并返回该关键词对应的类别。
  - 如果生成器表达式遍历完整个字典，但没有找到任何匹配的key，next()函数会返回其第二个参数None。这确保了即使没有找到匹配项，Category列也不会引发错误，而是填充None。

注意事项与最佳实践

匹配顺序的重要性：next()函数会返回第一个匹配到的项。如果字典中存在重叠的关键词（例如，{'apple': 'fruit', 'red apple': 'red fruit'}），且item_text中同时包含这两个关键词，那么返回的类别将取决于category_dict.items()的遍历顺序。在Python 3.7+中，字典会保留插入顺序，因此通常会返回先插入的那个匹配项。如果匹配顺序很重要，请确保字典的定义顺序或考虑更复杂的匹配逻辑（例如，优先匹配更长的关键词）。
性能考量：对于非常大的DataFrame，apply()方法虽然功能强大，但在纯Python循环中执行自定义逻辑可能会比Pandas内置的向量化操作慢。对于数百万行的数据，可以考虑使用更底层的字符串匹配库或对字典进行预处理（例如，使用正则表达式）来优化性能。然而，对于大多数常见规模的数据集，apply()方法通常足够高效。
大小写敏感性：key in item_text是大小写敏感的。如果需要进行不区分大小写的匹配，应在比较前将key和item_text都转换为小写或大写，例如key.lower() in item_text.lower()。
处理无匹配项：next()函数中的None作为默认值是处理无匹配项的优雅方式。根据业务需求，也可以将其替换为其他默认值（如'Other'、'Unknown'等），或者进行后续处理来识别未分类的数据。

总结

通过结合使用Pandas的apply()方法、Python的lambda函数和生成器表达式，我们可以灵活高效地为DataFrame添加基于子字符串匹配的分类列。这种方法不仅解决了传统map()方法的局限性，还通过next()函数的默认值参数，优雅地处理了无匹配项的情况。理解并掌握这一技巧，将极大地提升您在处理复杂文本数据分类任务时的效率和代码质量。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：苹果CPU占用高？关闭进程提升性能方法

下一篇：ArcGIS Server 10.1安装教程图解

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

JPA 中使用 LEFT JOIN 实现分支码可选查询的完整教程

本文详解如何在SpringDataJPA中正确编写支持LEFTJOIN与ORcolumnISNULL条件的动态查询，解决方法命名查询无法表达外连接逻辑的问题，并提供安全、可维护的@Query实现方案。

7小时前 23:45 0
正版软件

如何分析嵌套循环时间复杂度

嵌套循环的时间复杂度由各层循环规模的乘积主导；当内层循环规模为n−2、外层为n时，总操作数为n(n−2)=n²−2n，按大O记号规则，最高次项n²决定其时间复杂度为O(n²)。

7小时前 23:30 0
正版软件

Go 语言变量作用域与遮蔽详解

本文深入剖析Go语言中:=声明引发的变量遮蔽机制，通过for循环内多次同名声明的典型示例，阐明“右值始终绑定外层变量”的核心规则，并解释为何每次迭代都创建全新局部变量而非复用或修改外层变量。

7小时前 23:15 0
正版软件

TestNG 数据提供者重试重复执行问题解析

TestNG的@DataProvider在测试重试时会被多次调用，但实际传入测试方法的仍是首次创建的对象引用，导致测试中修改过的对象状态被保留，而非重新注入更新后的数据。

7小时前 23:00 0
正版软件

PHP数据库监控告警指南

答案：构建PHP数据库监控与告警系统需通过定制脚本采集QPS、连接数、慢查询等核心指标，利用PDO连接数据库并最小化查询开销，将数据存入Redis或InfluxDB，结合阈值判断与多渠道通知实现告警，通过基线分析、动态阈值、告警分级和去重机制避免告警疲劳，确保系统稳定高效。

8小时前 22:45 PHP数据库 0