如何使用 pandas.concat 对字典输入进行多级索引拼接

　　发布于2026-04-29　阅读（0）

扫一扫，手机访问

如何使用 pandas.concat 对字典输入进行多级索引拼接

当向 pd.concat 传入字典时，字典的键会自动作为外层索引（列名或多级列索引或分层行索引），具体行为由 axis 参数决定：axis=1 时生成 MultiIndex 列，axis=0 时生成 MultiIndex 行。

很多朋友在使用 `pd.concat` 时，习惯传入列表。但你知道吗？当你传入一个字典时，事情会变得更有趣。这不仅仅是简单的“拼接数据”，而是将字典的 键（keys） 转化为了结构化索引的“身份证”，从而构建出一个带层级的索引体系——这正是字典输入与列表输入的核心区别所在。

axis=1：字典键 → 多级列索引（MultiIndex columns）

当设置 `axis=1`（即按列拼接）时，字典的键会华丽变身为新列索引的顶层标签。举个例子，`pd.concat({"z": df})` 中的 `"z"`，就会稳稳坐在顶层，而原 DataFrame 的列名（比如 `'Name'`, `'Age'`）则作为第二层。最终，一个漂亮的两层列索引就诞生了。

看看这段代码的输出：

      z       Name Age0   tom  101  nick  152  juli  14

表面上看是普通的列，但本质上，它的列索引是两层的：第一层是 `'z'`，第二层是 `['Name', 'Age']`。用 `z.columns` 验证一下，真相大白：

print(z.columns)
# MultiIndex([('z', 'Name'),
#             ('z', 'Age')],
#            names=[None, None])

这种设计在实际工作中非常有用。比如，当你需要合并结构相同的“训练集”、“验证集”和“测试集”时，用字典就能清晰地区分数据来源，一目了然：

train = df.copy().assign(Age=lambda x: x.Age + 1)
val = df.copy().assign(Age=lambda x: x.Age - 1)
test = df.copy()

result = pd.concat({
    'train': train.add_prefix('train_'),
    'val': val.add_prefix('val_'),
    'test': test.add_prefix('test_')
}, axis=1)

print(result.columns)
# MultiIndex([('train', 'train_Name'), ('train', 'train_Age'),
#             ('val', 'val_Name'),     ('val', 'val_Age'),
#             ('test', 'test_Name'),  ('test', 'test_Age')],
#            names=[None, None])

axis=0：字典键 → 分层行索引（MultiIndex index）

那么，按行拼接呢？当 `axis=0` 时，字典的键会扮演行索引第一级的角色，而原始的行索引（比如 0, 1, 2）则自动退居第二级。

out = pd.concat({'top': df, 'bottom': df}, axis=0)
print(out.index)
# MultiIndex([('top', 0), ('top', 1), ('top', 2),
#             ('bottom', 0), ('bottom', 1), ('bottom', 2)],
#            names=[None, None])

其实，这种效果和你显式使用 `keys` 参数是完全等价的：

pd.concat([df, df], keys=['top', 'bottom'], axis=0)

注意事项与最佳实践

掌握了核心玩法，再来看看几个关键的细节和技巧，能帮你避开坑，用得更好：

键必须唯一：字典的键如果重复，后面的值会悄无声息地覆盖前面的，而且不会收到任何警告，这点需要特别注意。
避免空字典或包含 None 值：传入空字典 `pd.concat({})` 会直接报错；如果字典的值里有 `None`，则会引发 `TypeError`。
性能提示：从底层实现看，字典输入本质上是一种语法糖，最终还是会转换成 `keys` + `list(values)` 的形式。所以面对大数据量时，不必纠结于输入格式的优化。
命名索引层级：强烈推荐使用 `names` 参数为生成的多级索引指定清晰的名称，这能让你的数据结构更易读、更易管理：

pd.concat({'A': df, 'B': df}, axis=1, names=['dataset', 'field'])
# 列索引变为：MultiIndex(..., names=['dataset', 'field'])

总结

总而言之，`pd.concat(dict)` 的核心逻辑可以概括为：用字典键驱动索引层级的扩展。它不是一个简单的“堆叠”，而是一种系统性的、将语义化标签注入索引结构的整合方式。理解并掌握这一机制，能让你在构建用于实验对比、数据版本管理或特征分组的多维表格时，更加得心应手，精准高效。

本文转载于：https://www.php.cn/faq/2390846.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：VSCode使用RESTClient：在.http文件中直接发送网络请求

下一篇：如何解决环境变量管理问题？使用Composer安装phpdotenv就可以！

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

如何在WebStorm中关闭 annoying 的更新提示和弹窗

如何在WebStorm中关闭 annoying 的更新提示和弹窗相信不少开发者都有过这种体验：代码写到关键处，思路正流畅，屏幕角落冷不丁弹出一个更新提示，瞬间打断心流。WebStorm的这类“打扰”并非来自单一开关，而是分散在三个不同的配置模块里。漏掉任何一个，它都可能在你最专注的时候跳出来。简单

16分钟前 0
正版软件

怎么在VSCode里编写TypeScript-自动编译为JS文件的方案

VSCode 默认不自动编译 .ts 文件，必须安装本地 TypeScript、配置有效的 tsconfig.json（含 outDir 和 rootDir）、并通过 tasks.json 设置 isBackground:true 的 tsc --watch 任务才能实现保存自动编译。很多开发者初

16分钟前 0
正版软件

Sublime配置Erlang开发环境_编写高并发代码设置

Sublime Text 配置 Erlang 开发环境：避开那些“静默失败”的坑想用 Sublime Text 写 Erlang 代码，尤其是高并发应用？配置构建系统这一步，往往是新手和老手都容易翻车的地方。问题往往不在于代码本身，而在于环境。下面这份指南，将帮你绕开那些不报错、只“沉默”的陷阱。

17分钟前 0
正版软件

Composer提示无法解析的版本前缀_理解语义化版本规范【基础理论】

Composer提示无法解析的版本前缀_理解语义化版本规范【基础理论】遇到 Composer 报错 “Invalid version string” 或 “Unknown version constraint”，先别急着检查语法。很多时候，问题根源不在于写错了什么，而在于你把版本号放错了地方，或者

17分钟前 0
正版软件

VSCode配置CommonLisp_使用Alive扩展搭建专业编程环境

VSCode配置CommonLisp：使用Alive扩展搭建专业编程环境 Alive 是目前 VSCode 上最接近“开箱即用”的 Common Lisp LSP 方案，但需手动配置 SBCL 启动、Quicklisp 加载及 ASDF 路径；它深度集成 ASDF+SBCL+Quicklisp 生态

17分钟前 0