如何用 Pandas 合并 CSV 与 Excel 文件并识别数值差异

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

面对结构不一致的CSV和Excel数据，如何一步到位地完成读取、对齐与合并，并生成一份清晰展示差异值和条件标记的新表格？本文将为你揭晓答案。

在日常的数据核对工作中，我们常常会遇到一个典型挑战：需要整合来自不同源头、列名不统一、日期格式各异的文件，并快速定位关键数值字段之间的偏差。今天，我们就以一个具体场景为例，手把手拆解这个流程。

假设你手头有两份数据：一份CSV文件，包含 test date、id、values 1 三列；另一份Excel文件，其表头位于第5行，包含 id、date（格式为“3/12/2024”）、values 2 三列。我们的目标很明确：按 id 关联两条记录，统一混乱的日期格式，计算 values 2 与 values 1 的差值，并自动标记出差值“是否超过2”。

下面就是一套完整、可直接复用的解决方案，兼顾了健壮性与可读性：

import pandas as pd

# 1. 分别读取 CSV 和 Excel（跳过前4行，使第5行为列名）
df_csv = pd.read_csv("test.csv")
df_excel = pd.read_excel("test.xlsx", skiprows=4)

# 2. 标准化列名，便于后续合并
df_csv = df_csv.rename(columns={"test date": "date", "values 1": "value_1"})
df_excel = df_excel.rename(columns={"values 2": "value_2"})

# 3. 统一日期格式：将 Excel 中的 date 转为 YYYY-MM-DD 字符串（与 CSV 一致）
df_excel["date"] = pd.to_datetime(df_excel["date"]).dt.strftime("%Y-%m-%d")

# 4. 基于 'id' 和 'date' 双键合并（推荐：避免仅用 id 导致多对一歧义）
merged = pd.merge(df_csv, df_excel, on=["id", "date"], how="inner")

# 5. 构建结果表，计算差异并添加布尔标记
result = merged[["date", "id", "value_1", "value_2"]].copy()
result["discrepancy"] = result["value_2"] - result["value_1"]
result["Over 2?"] = result["discrepancy"] > 2  # 自动转为布尔值，可选 .map({True: "yes", False: "no"})
print(result)

几个需要留意的关键点：

如果Excel的表头不在第5行，灵活调整 skiprows 参数即可；更复杂的情况，可以考虑用 header=None 配合 iloc 手动指定。
使用 ["id", "date"] 双键进行合并，比单用 id 更稳妥，能有效防止同一ID对应多个日期时产生意外的笛卡尔积。
pd.to_datetime(...).dt.strftime() 这一连招，确保了日期格式的完全对齐，避免了因字符串格式不同导致的匹配失败。
生成的 "Over 2?" 列默认为布尔型（True/False）。如果需要更直观的“yes”/“no”显示，可以在最后追加一行代码：
```
result["Over 2?"] = result["Over 2?"].map({True: "yes", False: "no"})
```
最终的结果，可以轻松导出为新的Excel文件，方便分享：result.to_excel("discrepancy_report.xlsx", index=False)。

这套流程清晰直接，既适合数据处理的初学者快速上手，也能很好地满足日常数据稽核与自动化报表生成的需求。下次再遇到结构混乱的源数据，不妨试试这个方法。

本文转载于：https://www.php.cn/faq/2311301.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：c#如何禁止窗体最大化_c#禁止窗体最大化完整指南一文搞懂

下一篇：MySQL 中实现用户与所有地点的全量关联查询（含已分配/未分配状态标记）

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

git实现创建标签推送到远程分支上

要在Git中创建标签并将其推送到远程dev分支如果你希望为特定的提交节点打上标记，并与团队在开发分支上共享，下面这套操作流程清晰且实用。 1、首先确保你已经在本地的Git仓库中操作的第一步，是确认你当前位于正确的分支上。请切换到 `dev` 分支： git checkout dev 2、创建标签

2分钟前 0
正版软件

Git拉取代码的六种高效方式

常见拉取代码方式详解在Git的日常协作中，把远程仓库的最新代码“拿下来”——也就是拉取和合并，是我们最常做的操作之一。这事儿虽然基础，但方法还真不少。不同的场景，用对方法，能让你的提交历史更清晰，协作效率也更高。下面我们就来详细拆解几种主流的方式，看看它们各自适合什么情况。 1. git pull

2分钟前 0
正版软件

git进阶之hooks勾子脚本详解

概述提到Git的高阶玩法，Git Hooks绝对是一个绕不开的利器。这个内置特性允许你在Git工作流的各个关键节点，插入自定义的自动化脚本。简单说，它让你的版本控制仓库变得“聪明”起来，能在特定事件发生时自动执行预设任务。下面，我们就来深入拆解一下这个强大工具的前因后果。一、Git Hooks

2分钟前 0
正版软件

Git回退(Revert)操作后无法重新合并的问题及解决

问题背景很多团队在使用码云企业版托管代码时，会采用经典的双分支模型：一个是受保护的 master 主线分支，另一个是用于日常开发的 dev 分支。保护分支的设置很常见，这意味着任何向 master 的合并都需要通过网页端发起合并请求并完成评审。但实际操作中，难免会遇到这种情况：刚刚把 dev 的

3分钟前 0
正版软件

密码破解全教程

常用计算机密码破解方法速查指南在日常的计算机操作中，密码的身影无处不在——开机需要CMOS密码，登录Windows 98离不开用户密码，保护一份Word文档也得靠文档密码。这些密码构建了我们数据安全的第一道防线。不过，用的越多，忘的几率自然也越大。谁还没个忘密码的时候呢？一旦密码丢失，如何快速“破

3分钟前 0

如何用 Pandas 合并 CSV 与 Excel 文件并识别数值差异

产品推荐

最新发布

相关推荐

热门关注