多条件合并DataFrame：ID匹配+起降地不同

　　发布于2026-04-16　阅读（0）

扫一扫，手机访问

如何基于多列条件（ID匹配 + 起降地不一致）智能合并两个DataFrame

本文介绍一种通用、健壮的Pandas数据合并方法：将主表df1与关联表df2按ID列（IDL1或IDL2）匹配，并仅保留Orig/Dest与Orig2/Dest2组合不一致的记录，最终注入Orig2、Dest2、DayL等字段。

本文介绍一种通用、健壮的Pandas数据合并方法：将主表df1与关联表df2按ID列（IDL1或IDL2）匹配，并仅保留Orig/Dest与Orig2/Dest2组合不一致的记录，最终注入Orig2、Dest2、DayL等字段。

在实际数据分析中，常遇到“一对多”且带逻辑过滤条件的合并需求——例如航班数据中，一个航班ID可能对应多个潜在衔接航段（由IDL1/IDL2标识），但仅需保留起降地（Orig/Dest vs Orig2/Dest2）不重合的关联记录。直接使用pd.merge无法同时满足“ID匹配任一列”+“字段组合排他性过滤”双重条件。此时，melt + merge + 布尔索引是更灵活、可扩展的解决方案。

核心思路分三步：

标准化df2的ID映射关系：将IDL1和IDL2两列“熔化”（melt）为长格式，使每个ID候选值独占一行，消除列维度差异；
执行左连接：以ID为键，将df1与熔化后的临时表合并，自然承载所有匹配可能性；
应用业务逻辑过滤：用布尔索引筛选出Orig ≠ Orig2 或 Dest ≠ Dest2 的行（即排除完全相同的起降对），确保注入的是有意义的关联信息。

以下是完整实现代码：

import pandas as pd

# 构造示例数据
data1 = {'ID': [385908, 385909, 757947, 757946],
         'A': ['LH', 'LH', 'LH', 'LH'],
         'F': [646, 646, 646, 646],
         'Orig': ['FRA', 'FRA', 'NQZ', 'NQZ'],
         'Dest': ['NQZ', 'NQZ', 'ALA', 'ALA'],
         'DayU': [1, 6, 1, 6],
         'DepU': [650, 650, 1130, 1130]}
df1 = pd.DataFrame(data1)

data2 = {'A': ['LH', 'LH', 'LH', 'LH', 'LH', 'LH'],
         'F': [646, 646, 646, 646, 646, 646],
         'Orig2': ['FRA', 'FRA', 'FRA', 'FRA', 'NQZ', 'NQZ'],
         'Dest2': ['ALA', 'ALA', 'NQZ', 'NQZ', 'ALA', 'ALA'],
         'DayL': [1, 6, 1, 6, 2, 7],
         'DepL': [710, 710, 710, 710, 50, 50],
         'IDL1': [385908, 385909, 385908, 385909, 757947, 757946],
         'IDL2': [757947, 757946, -1, -1, -1, -1]}
df2 = pd.DataFrame(data2)

# 步骤1：熔化df2，将IDL1/IDL2统一为ID列
tmp = df2.melt(
    id_vars=['Orig2', 'Dest2', 'DayL'],  # 保留的非ID列
    value_vars=['IDL1', 'IDL2'],          # 待熔化的ID列
    value_name='ID'                         # 新ID列名
).drop('variable', axis=1)  # 删除无用的variable列（原列名）

# 步骤2：与df1左连接
tmp2 = df1.merge(tmp, on='ID', how='left')

# 步骤3：逻辑过滤——仅保留Orig/Dest与Orig2/Dest2不完全相同的记录
result = tmp2[tmp2['Orig'] != tmp2['Orig2'] | tmp2['Dest'] != tmp2['Dest2']].copy()

print(result)

✅ 输出结果（符合预期逻辑）：

       ID   A    F Orig Dest  DayU  DepU Orig2 Dest2  DayL
0  385908  LH  646  FRA  NQZ     1   650   FRA   ALA     1
2  385909  LH  646  FRA  NQZ     6   650   FRA   ALA     6
5  757947  LH  646  NQZ  ALA     1  1130   FRA   ALA     1
7  757946  LH  646  NQZ  ALA     6  1130   FRA   ALA     6

⚠️ 注意事项与扩展建议：

若IDL1/IDL2含缺失值（NaN）或无效占位符（如-1），建议在melt前先用df2.replace(-1, pd.NA)清洗，避免错误匹配；
如需保留所有匹配项（包括Orig/Dest相同的情况）并打标，可新增列：result['is_same_route'] = (result['Orig']==result['Orig2']) & (result['Dest']==result['Dest2'])；
对于超大规模数据，melt后merge可能产生中间膨胀，可考虑先用pd.concat([df2[['IDL1','Orig2','Dest2','DayL']].rename(columns={'IDL1':'ID'}), ...])拼接预处理，提升性能；
此模式天然支持任意数量的ID映射列（如IDL1/IDL2/IDL3…），只需扩展value_vars列表即可，真正实现“通用解”。

该方案兼顾清晰性、可维护性与业务严谨性，是处理复杂关联合并任务的推荐实践。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：语音生成器使用教程与技巧

下一篇：小红书视频下载方法及步骤教程

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Pandas清洗含冗余文本的CSV文件方法

本文旨在提供两种高效的方法，利用Pandas库处理包含非数据文本（如报告头、脚）的CSV文件。我们将探讨如何智能地跳过或移除这些无关内容，确保只将结构化数据加载到DataFrame中，从而解决直接读取此类文件时遇到的常见问题，提升数据处理的准确性和效率。

10分钟前 0
正版软件

C++如何高效计算大文件SHA256校验值

应使用std::ifstream二进制分块读取大文件并流式计算SHA256，缓冲区设64KB–1MB，配合OpenSSL的EVP_MD_CTXRAII管理、正确初始化/清理、gcount()校验读取字节数，输出32字节哈希为小写十六进制字符串。

25分钟前 0
正版软件

PHP数组下标规则及自动索引解析

PHP数组的下标既支持数字（整型），也支持字符串，且不强制连续或从0开始；当使用空[]或未指定键名添加元素时，PHP会自动分配下一个可用的整型索引。数字下标允许不连续、不从0开始PHP不要求数字键必须连续或从0起始。只要键是整数（或可转为整数的字符串，如"123"），就视为数字下标：$arr[5]='a';$arr[100]='b';——中间空缺不影响使用$arr[-1]='x';$arr[0]='y';——负数下标合法，但自动索引不

40分钟前 0
正版软件

Go 中嵌套 JSON 结构生成数组字段方法

本文讲解如何通过合理定义Go结构体及其JSON标签，将MongoDB查询结果序列化为包含自定义键名（如"array"）的嵌套JSON对象，避免因字段名、嵌入方式或导出规则导致的序列化失败。

55分钟前 0
正版软件

Django 批量导入 JSON 数据的高效方法

本文详解如何在Django中安全、高效地将JSON文件数据批量写入SQL数据库，重点纠正单条保存导致的数据丢失问题，并推荐使用bulk_create()实现一次性高性能插入。

1小时前 10:15 0

多条件合并DataFrame：ID匹配+起降地不同

产品推荐

最新发布

相关推荐

热门关注