您的位置:首页 >如何使用 Pandas 合并 CSV 与 Excel 文件并识别数据差异
发布于2026-05-03 阅读(0)
扫一扫,手机访问

本文介绍如何用 Python 的 Pandas 库读取结构不一致的 CSV 和 Excel 文件,基于共同键(如 id 和 date)智能对齐、合并,并计算数值差异及条件标记。
在日常的数据处理工作中,你是否也遇到过这样的烦恼?手头有两份数据,一份是CSV格式,另一份是Excel表格,它们来自不同的系统或部门,不仅字段名对不上,连日期格式都五花八门。直接打开比对?效率低下且容易出错。今天,我们就来聊聊如何用Python的Pandas库,优雅地解决这个“异构表格合并与差异识别”的经典问题。
这个场景非常典型:你需要将一份标准的CSV文件,与一份表头藏在第5行的Excel报表进行合并,不仅要按ID和日期对齐,还得算出数值差异,并打上“是否超差”的业务标签。听起来复杂?别担心,跟着下面的步骤走,你会发现一切都有章可循。
整个流程可以拆解为几个核心环节,每个环节都藏着一些需要留意的细节。
理论说完了,是时候亮出代码了。下面的脚本不仅实现了核心功能,还融入了一些提升健壮性的优化。
import pandas as pd
# 1. 读取 CSV(自动推断日期列,后续统一处理)
df_csv = pd.read_csv("test.csv", parse_dates=["test date"], dayfirst=False)
df_csv = df_csv.rename(columns={"test date": "date", "values 1": "value_1"})
# 2. 读取 Excel(跳过前4行,获取真实表头)
df_excel = pd.read_excel("test.xlsx", skiprows=4, parse_dates=["date"], dayfirst=False)
df_excel = df_excel.rename(columns={"values 2": "value_2"})
# 3. 日期标准化:统一为 YYYY-MM-DD 字符串(便于合并与展示)
for col in ["date"]:
df_csv[col] = pd.to_datetime(df_csv[col]).dt.strftime("%Y-%m-%d")
df_excel[col] = pd.to_datetime(df_excel[col]).dt.strftime("%Y-%m-%d")
# 4. 基于 date + id 双键合并(推荐:更严谨)
merged = pd.merge(df_csv, df_excel, on=["date", "id"], how="inner")
# 5. 计算差异与条件列
merged["discrepancy"] = merged["value_2"] - merged["value_1"]
merged["Over 2?"] = merged["discrepancy"].apply(lambda x: "yes" if x > 2 else "no")
# 6. 整理最终列顺序(按题目示例)
result = merged[["date", "id", "value_1", "value_2", "discrepancy", "Over 2?"]]
print(result)
代码跑通了固然可喜,但要想在实际项目中游刃有余,下面这些“坑”最好提前了解。
说到底,处理这类异构数据比对,核心思路就是“先标准化,再对齐”。充分利用Pandas的`read_csv`/`read_excel`参数(如`skiprows`跳过行、`parse_dates`解析日期、`rename`重命名列)完成数据清洗和标准化,然后依靠`merge`函数强大而灵活的多键对齐能力进行合并,最后进行差异计算和业务逻辑判断。
掌握了这个模式,它的扩展性非常强。你可以轻松地将这个流程嵌入到自动化脚本中,实现定时数据稽核、自动生成带高亮差异的Excel报告,或者直接与数据库流水记录进行比对。这不仅是解决了一个具体问题,更是向自动化、规范化的数据工作流迈出的关键一步。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9