商城首页欢迎来到中国正版软件门户

您的位置:首页 >如何使用 pandas.concat 对字典输入进行多级索引拼接

如何使用 pandas.concat 对字典输入进行多级索引拼接

  发布于2026-04-29 阅读(0)

扫一扫,手机访问

如何使用 pandas.concat 对字典输入进行多级索引拼接

如何使用 pandas.concat 对字典输入进行多级索引拼接

当向 pd.concat 传入字典时,字典的键会自动作为外层索引(列名或多级列索引或分层行索引),具体行为由 axis 参数决定:axis=1 时生成 MultiIndex 列,axis=0 时生成 MultiIndex 行。

很多朋友在使用 `pd.concat` 时,习惯传入列表。但你知道吗?当你传入一个字典时,事情会变得更有趣。这不仅仅是简单的“拼接数据”,而是将字典的 键(keys) 转化为了结构化索引的“身份证”,从而构建出一个带层级的索引体系——这正是字典输入与列表输入的核心区别所在。

axis=1:字典键 → 多级列索引(MultiIndex columns)

当设置 `axis=1`(即按列拼接)时,字典的键会华丽变身为新列索引的顶层标签。举个例子,`pd.concat({"z": df})` 中的 `"z"`,就会稳稳坐在顶层,而原 DataFrame 的列名(比如 `'Name'`, `'Age'`)则作为第二层。最终,一个漂亮的两层列索引就诞生了。

看看这段代码的输出:

      z       Name Age0   tom  101  nick  152  juli  14

表面上看是普通的列,但本质上,它的列索引是两层的:第一层是 `'z'`,第二层是 `['Name', 'Age']`。用 `z.columns` 验证一下,真相大白:

print(z.columns)
# MultiIndex([('z', 'Name'),
#             ('z', 'Age')],
#            names=[None, None])

这种设计在实际工作中非常有用。比如,当你需要合并结构相同的“训练集”、“验证集”和“测试集”时,用字典就能清晰地区分数据来源,一目了然:

train = df.copy().assign(Age=lambda x: x.Age + 1)
val = df.copy().assign(Age=lambda x: x.Age - 1)
test = df.copy()

result = pd.concat({
    'train': train.add_prefix('train_'),
    'val': val.add_prefix('val_'),
    'test': test.add_prefix('test_')
}, axis=1)

print(result.columns)
# MultiIndex([('train', 'train_Name'), ('train', 'train_Age'),
#             ('val', 'val_Name'),     ('val', 'val_Age'),
#             ('test', 'test_Name'),  ('test', 'test_Age')],
#            names=[None, None])

axis=0:字典键 → 分层行索引(MultiIndex index)

那么,按行拼接呢?当 `axis=0` 时,字典的键会扮演行索引第一级的角色,而原始的行索引(比如 0, 1, 2)则自动退居第二级。

out = pd.concat({'top': df, 'bottom': df}, axis=0)
print(out.index)
# MultiIndex([('top', 0), ('top', 1), ('top', 2),
#             ('bottom', 0), ('bottom', 1), ('bottom', 2)],
#            names=[None, None])

其实,这种效果和你显式使用 `keys` 参数是完全等价的:

pd.concat([df, df], keys=['top', 'bottom'], axis=0)

注意事项与最佳实践

掌握了核心玩法,再来看看几个关键的细节和技巧,能帮你避开坑,用得更好:

  • 键必须唯一:字典的键如果重复,后面的值会悄无声息地覆盖前面的,而且不会收到任何警告,这点需要特别注意。
  • 避免空字典或包含 None 值:传入空字典 `pd.concat({})` 会直接报错;如果字典的值里有 `None`,则会引发 `TypeError`。
  • 性能提示:从底层实现看,字典输入本质上是一种语法糖,最终还是会转换成 `keys` + `list(values)` 的形式。所以面对大数据量时,不必纠结于输入格式的优化。
  • 命名索引层级:强烈推荐使用 `names` 参数为生成的多级索引指定清晰的名称,这能让你的数据结构更易读、更易管理:
pd.concat({'A': df, 'B': df}, axis=1, names=['dataset', 'field'])
# 列索引变为:MultiIndex(..., names=['dataset', 'field'])

总结

总而言之,`pd.concat(dict)` 的核心逻辑可以概括为:用字典键驱动索引层级的扩展。它不是一个简单的“堆叠”,而是一种系统性的、将语义化标签注入索引结构的整合方式。理解并掌握这一机制,能让你在构建用于实验对比、数据版本管理或特征分组的多维表格时,更加得心应手,精准高效。

本文转载于:https://www.php.cn/faq/2390846.html 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注