您的位置:首页 >如何使用 pandas.concat 对字典输入进行多级索引拼接
发布于2026-04-29 阅读(0)
扫一扫,手机访问

当向 pd.concat 传入字典时,字典的键会自动作为外层索引(列名或多级列索引或分层行索引),具体行为由 axis 参数决定:axis=1 时生成 MultiIndex 列,axis=0 时生成 MultiIndex 行。
很多朋友在使用 `pd.concat` 时,习惯传入列表。但你知道吗?当你传入一个字典时,事情会变得更有趣。这不仅仅是简单的“拼接数据”,而是将字典的 键(keys) 转化为了结构化索引的“身份证”,从而构建出一个带层级的索引体系——这正是字典输入与列表输入的核心区别所在。
当设置 `axis=1`(即按列拼接)时,字典的键会华丽变身为新列索引的顶层标签。举个例子,`pd.concat({"z": df})` 中的 `"z"`,就会稳稳坐在顶层,而原 DataFrame 的列名(比如 `'Name'`, `'Age'`)则作为第二层。最终,一个漂亮的两层列索引就诞生了。
看看这段代码的输出:
z Name Age0 tom 101 nick 152 juli 14
表面上看是普通的列,但本质上,它的列索引是两层的:第一层是 `'z'`,第二层是 `['Name', 'Age']`。用 `z.columns` 验证一下,真相大白:
print(z.columns)
# MultiIndex([('z', 'Name'),
# ('z', 'Age')],
# names=[None, None])
这种设计在实际工作中非常有用。比如,当你需要合并结构相同的“训练集”、“验证集”和“测试集”时,用字典就能清晰地区分数据来源,一目了然:
train = df.copy().assign(Age=lambda x: x.Age + 1)
val = df.copy().assign(Age=lambda x: x.Age - 1)
test = df.copy()
result = pd.concat({
'train': train.add_prefix('train_'),
'val': val.add_prefix('val_'),
'test': test.add_prefix('test_')
}, axis=1)
print(result.columns)
# MultiIndex([('train', 'train_Name'), ('train', 'train_Age'),
# ('val', 'val_Name'), ('val', 'val_Age'),
# ('test', 'test_Name'), ('test', 'test_Age')],
# names=[None, None])
那么,按行拼接呢?当 `axis=0` 时,字典的键会扮演行索引第一级的角色,而原始的行索引(比如 0, 1, 2)则自动退居第二级。
out = pd.concat({'top': df, 'bottom': df}, axis=0)
print(out.index)
# MultiIndex([('top', 0), ('top', 1), ('top', 2),
# ('bottom', 0), ('bottom', 1), ('bottom', 2)],
# names=[None, None])
其实,这种效果和你显式使用 `keys` 参数是完全等价的:
pd.concat([df, df], keys=['top', 'bottom'], axis=0)
掌握了核心玩法,再来看看几个关键的细节和技巧,能帮你避开坑,用得更好:
pd.concat({'A': df, 'B': df}, axis=1, names=['dataset', 'field'])
# 列索引变为:MultiIndex(..., names=['dataset', 'field'])
总而言之,`pd.concat(dict)` 的核心逻辑可以概括为:用字典键驱动索引层级的扩展。它不是一个简单的“堆叠”,而是一种系统性的、将语义化标签注入索引结构的整合方式。理解并掌握这一机制,能让你在构建用于实验对比、数据版本管理或特征分组的多维表格时,更加得心应手,精准高效。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9