您的位置:首页 >多条件合并DataFrame:ID匹配+起降地不同
发布于2026-04-16 阅读(0)
扫一扫,手机访问

本文介绍一种通用、健壮的Pandas数据合并方法:将主表df1与关联表df2按ID列(IDL1或IDL2)匹配,并仅保留Orig/Dest与Orig2/Dest2组合不一致的记录,最终注入Orig2、Dest2、DayL等字段。
本文介绍一种通用、健壮的Pandas数据合并方法:将主表df1与关联表df2按ID列(IDL1或IDL2)匹配,并仅保留Orig/Dest与Orig2/Dest2组合不一致的记录,最终注入Orig2、Dest2、DayL等字段。
在实际数据分析中,常遇到“一对多”且带逻辑过滤条件的合并需求——例如航班数据中,一个航班ID可能对应多个潜在衔接航段(由IDL1/IDL2标识),但仅需保留起降地(Orig/Dest vs Orig2/Dest2)不重合的关联记录。直接使用pd.merge无法同时满足“ID匹配任一列”+“字段组合排他性过滤”双重条件。此时,melt + merge + 布尔索引是更灵活、可扩展的解决方案。
核心思路分三步:
以下是完整实现代码:
import pandas as pd
# 构造示例数据
data1 = {'ID': [385908, 385909, 757947, 757946],
'A': ['LH', 'LH', 'LH', 'LH'],
'F': [646, 646, 646, 646],
'Orig': ['FRA', 'FRA', 'NQZ', 'NQZ'],
'Dest': ['NQZ', 'NQZ', 'ALA', 'ALA'],
'DayU': [1, 6, 1, 6],
'DepU': [650, 650, 1130, 1130]}
df1 = pd.DataFrame(data1)
data2 = {'A': ['LH', 'LH', 'LH', 'LH', 'LH', 'LH'],
'F': [646, 646, 646, 646, 646, 646],
'Orig2': ['FRA', 'FRA', 'FRA', 'FRA', 'NQZ', 'NQZ'],
'Dest2': ['ALA', 'ALA', 'NQZ', 'NQZ', 'ALA', 'ALA'],
'DayL': [1, 6, 1, 6, 2, 7],
'DepL': [710, 710, 710, 710, 50, 50],
'IDL1': [385908, 385909, 385908, 385909, 757947, 757946],
'IDL2': [757947, 757946, -1, -1, -1, -1]}
df2 = pd.DataFrame(data2)
# 步骤1:熔化df2,将IDL1/IDL2统一为ID列
tmp = df2.melt(
id_vars=['Orig2', 'Dest2', 'DayL'], # 保留的非ID列
value_vars=['IDL1', 'IDL2'], # 待熔化的ID列
value_name='ID' # 新ID列名
).drop('variable', axis=1) # 删除无用的variable列(原列名)
# 步骤2:与df1左连接
tmp2 = df1.merge(tmp, on='ID', how='left')
# 步骤3:逻辑过滤——仅保留Orig/Dest与Orig2/Dest2不完全相同的记录
result = tmp2[tmp2['Orig'] != tmp2['Orig2'] | tmp2['Dest'] != tmp2['Dest2']].copy()
print(result)✅ 输出结果(符合预期逻辑):
ID A F Orig Dest DayU DepU Orig2 Dest2 DayL 0 385908 LH 646 FRA NQZ 1 650 FRA ALA 1 2 385909 LH 646 FRA NQZ 6 650 FRA ALA 6 5 757947 LH 646 NQZ ALA 1 1130 FRA ALA 1 7 757946 LH 646 NQZ ALA 6 1130 FRA ALA 6
⚠️ 注意事项与扩展建议:
该方案兼顾清晰性、可维护性与业务严谨性,是处理复杂关联合并任务的推荐实践。
上一篇:语音生成器使用教程与技巧
下一篇:小红书视频下载方法及步骤教程
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9