商城首页欢迎来到中国正版软件门户

您的位置:首页 >多条件合并DataFrame:ID匹配+起降地不同

多条件合并DataFrame:ID匹配+起降地不同

  发布于2026-04-16 阅读(0)

扫一扫,手机访问

如何基于多列条件(ID匹配 + 起降地不一致)智能合并两个DataFrame

本文介绍一种通用、健壮的Pandas数据合并方法:将主表df1与关联表df2按ID列(IDL1或IDL2)匹配,并仅保留Orig/Dest与Orig2/Dest2组合不一致的记录,最终注入Orig2、Dest2、DayL等字段。

本文介绍一种通用、健壮的Pandas数据合并方法:将主表df1与关联表df2按ID列(IDL1或IDL2)匹配,并仅保留Orig/Dest与Orig2/Dest2组合不一致的记录,最终注入Orig2、Dest2、DayL等字段。

在实际数据分析中,常遇到“一对多”且带逻辑过滤条件的合并需求——例如航班数据中,一个航班ID可能对应多个潜在衔接航段(由IDL1/IDL2标识),但仅需保留起降地(Orig/Dest vs Orig2/Dest2)不重合的关联记录。直接使用pd.merge无法同时满足“ID匹配任一列”+“字段组合排他性过滤”双重条件。此时,melt + merge + 布尔索引是更灵活、可扩展的解决方案。

核心思路分三步:

  1. 标准化df2的ID映射关系:将IDL1和IDL2两列“熔化”(melt)为长格式,使每个ID候选值独占一行,消除列维度差异;
  2. 执行左连接:以ID为键,将df1与熔化后的临时表合并,自然承载所有匹配可能性;
  3. 应用业务逻辑过滤:用布尔索引筛选出Orig ≠ Orig2 或 Dest ≠ Dest2 的行(即排除完全相同的起降对),确保注入的是有意义的关联信息。

以下是完整实现代码:

import pandas as pd

# 构造示例数据
data1 = {'ID': [385908, 385909, 757947, 757946],
         'A': ['LH', 'LH', 'LH', 'LH'],
         'F': [646, 646, 646, 646],
         'Orig': ['FRA', 'FRA', 'NQZ', 'NQZ'],
         'Dest': ['NQZ', 'NQZ', 'ALA', 'ALA'],
         'DayU': [1, 6, 1, 6],
         'DepU': [650, 650, 1130, 1130]}
df1 = pd.DataFrame(data1)

data2 = {'A': ['LH', 'LH', 'LH', 'LH', 'LH', 'LH'],
         'F': [646, 646, 646, 646, 646, 646],
         'Orig2': ['FRA', 'FRA', 'FRA', 'FRA', 'NQZ', 'NQZ'],
         'Dest2': ['ALA', 'ALA', 'NQZ', 'NQZ', 'ALA', 'ALA'],
         'DayL': [1, 6, 1, 6, 2, 7],
         'DepL': [710, 710, 710, 710, 50, 50],
         'IDL1': [385908, 385909, 385908, 385909, 757947, 757946],
         'IDL2': [757947, 757946, -1, -1, -1, -1]}
df2 = pd.DataFrame(data2)

# 步骤1:熔化df2,将IDL1/IDL2统一为ID列
tmp = df2.melt(
    id_vars=['Orig2', 'Dest2', 'DayL'],  # 保留的非ID列
    value_vars=['IDL1', 'IDL2'],          # 待熔化的ID列
    value_name='ID'                         # 新ID列名
).drop('variable', axis=1)  # 删除无用的variable列(原列名)

# 步骤2:与df1左连接
tmp2 = df1.merge(tmp, on='ID', how='left')

# 步骤3:逻辑过滤——仅保留Orig/Dest与Orig2/Dest2不完全相同的记录
result = tmp2[tmp2['Orig'] != tmp2['Orig2'] | tmp2['Dest'] != tmp2['Dest2']].copy()

print(result)

输出结果(符合预期逻辑):

       ID   A    F Orig Dest  DayU  DepU Orig2 Dest2  DayL
0  385908  LH  646  FRA  NQZ     1   650   FRA   ALA     1
2  385909  LH  646  FRA  NQZ     6   650   FRA   ALA     6
5  757947  LH  646  NQZ  ALA     1  1130   FRA   ALA     1
7  757946  LH  646  NQZ  ALA     6  1130   FRA   ALA     6

⚠️ 注意事项与扩展建议

  • 若IDL1/IDL2含缺失值(NaN)或无效占位符(如-1),建议在melt前先用df2.replace(-1, pd.NA)清洗,避免错误匹配;
  • 如需保留所有匹配项(包括Orig/Dest相同的情况)并打标,可新增列:result['is_same_route'] = (result['Orig']==result['Orig2']) & (result['Dest']==result['Dest2']);
  • 对于超大规模数据,melt后merge可能产生中间膨胀,可考虑先用pd.concat([df2[['IDL1','Orig2','Dest2','DayL']].rename(columns={'IDL1':'ID'}), ...])拼接预处理,提升性能;
  • 此模式天然支持任意数量的ID映射列(如IDL1/IDL2/IDL3…),只需扩展value_vars列表即可,真正实现“通用解”。

该方案兼顾清晰性、可维护性与业务严谨性,是处理复杂关联合并任务的推荐实践。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注