您的位置:首页 >Python怎样把分类型字符串映射为数值_运用map函数配合字典进行编码转换
发布于2026-05-03 阅读(0)
扫一扫,手机访问

很多朋友第一次在 Python 3 里用 map() 配合字典做映射时,可能会有点懵:打印出来的结果不是列表,而是一个 。这其实不是报错,而是 Python 3 的一个核心设计变化——map() 现在返回的是一个迭代器,而不是直接给你一个完整的列表。
list() 或 tuple(),或者直接用在循环里。Series.map() 就方便多了,那是另一个同名但行为完全不同的方法,后面会详细讲。map() 可不会帮你处理缺失值,一旦字典里找不到对应的键,它二话不说就直接抛出 KeyError。说到 KeyError,这大概是做数据映射时最常遇到的“拦路虎”了。尤其是在训练集和测试集分离的场景下,训练集里类别齐全,你兴冲冲地写好映射字典,结果测试集里冷不丁冒出一个新类别,程序立刻就崩了。
"male",但数据里混进了带空格的 "Male " 或者大小写不一致的 "MALE"。"unknown"、"N/A" 或者干脆就是个空字符串 "",如果你的字典里没给它们“上户口”,map() 一样会报错。set(series) 把数据里实际存在的唯一值都检查一遍,再据此构造字典。或者,更优雅一点,用 dict.get(key, default_value) 来包裹映射逻辑,给未知值一个安全的默认出口。来看一个修复后的示例写法:
mapping = {"A": 0, "B": 1, "C": 2}
result = list(map(lambda x: mapping.get(x.strip().lower(), -1), data_list))
这里有个重要的概念别搞混了:pandas 里的 Series.map() 和 Python 内置的 map() 函数,虽然名字一样,但完全是两码事。前者是专门为数据框中的标签编码设计的“瑞士军刀”,自带了不少贴心功能。
想系统提升?可以看看“Python免费学习笔记(深入)”。
Series.map() 遇到字典里没有的键,默认会返回 NaN,而不是让程序崩溃。你还可以通过 na_action='ignore' 参数,让它跳过原有的 NaN 值,保持原样。map(),它只严格按位置顺序处理,数据稍微错位一点,结果就全乱了。Series.map() 是向量化实现的。当处理的数据量变大时,它的速度通常会明显快于 list(map(...)) 这种组合。所以,在 pandas 环境下的推荐写法是这样的:
df["gender_code"] = df["gender"].map({"male": 0, "female": 1})
有时候,类别本身是有顺序的,比如“低/中/高”,或者你希望编码顺序固定且可复现。这时候,手动写字典不仅容易遗漏,维护起来也麻烦。更专业的做法是借助 pandas 内置的工具。
pd.factorize(series)[0]。它会返回一个数值编码数组,编码规则是按照数值在数据中首次出现的顺序来编号,结果稳定且可复现。pd.Categorical(series, categories=["low", "mid", "high"]) 将数据转为有序类别类型,然后直接访问其 .codes 属性获取编码。factorize 能自动覆盖全部观测值。它返回的 uniques 数组,正好就是编码和原始类别的对应关系,方便反查。具体可以这么用:
codes, uniques = pd.factorize(df["size"]) # uniques 是 Index(['S', 'M', 'L'], dtype='object'),codes 是对应整数数组
最后分享一个实用建议:在实际操作前,别急着动手写映射字典。先运行一下 df["col"].value_counts(dropna=False),把这一列里到底有哪些值、空值有多少、有没有隐藏的空格或奇怪字符,都看得清清楚楚。很多时候,映射逻辑本身不复杂,棘手的是那些藏在数据里的“脏东西”。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9