您的位置:首页 >Pandas 按 PERSNR 和 DATE 聚合更新数据
发布于2026-04-11 阅读(0)
扫一扫,手机访问

本文介绍如何在 Pandas 中精准更新指定人员(PERSNR)子集的 VALUE 列——先按 PERSNR+DATE 分组求和,再将 XYZ=="b" 的对应行设为 0,同时保留原始 DataFrame 的所有其他列与结构。
本文介绍如何在 Pandas 中精准更新指定人员(PERSNR)子集的 VALUE 列——先按 PERSNR+DATE 分组求和,再将 XYZ=="b" 的对应行设为 0,同时保留原始 DataFrame 的所有其他列与结构。
在实际数据处理中,常需对大规模 DataFrame(如含 8000+ 人员编号)的特定子集执行条件聚合与原位校正。本教程以典型场景为例:对目标 PERSNR(如 [22222])下的每组 PERSNR + DATE 计算 VALUE 总和,并将其中 XYZ == "b" 的记录 VALUE 强制设为 0,其余字段(如其他列、索引、数据类型)保持完全不变。
核心思路分三步:过滤 → 聚合 → 定向赋值,避免 inplace=True 副作用或全量重写导致的数据丢失。
import pandas as pd
# 示例数据(注意:VALUE 使用浮点数,避免字符串逗号问题)
data = {
"PERSNR": [22222, 22222, 22222, 22222, 55555, 55555],
"XYZ": ["a", "b", "a", "b", "a", "b"],
"DATE": ["Jan", "Jan", "Feb", "Feb", "Jan", "Jan"],
"VALUE": [0.8, 0.2, 0.8, 0.2, 0.8, 0.2],
# 其他列(如 'AGE', 'DEPT')可存在,本例中自动保留
}
df = pd.DataFrame(data)
# 步骤 1:定义目标人员列表
selected_persnr = [22222]
# 步骤 2:生成聚合结果(仅针对目标 PERSNR 子集)
agg_df = (
df[df["PERSNR"].isin(selected_persnr)]
.groupby(["PERSNR", "DATE"])["VALUE"]
.sum()
.reset_index(name="VALUE")
)
# 步骤 3:用 merge + loc 安全更新 —— 关键:只修改目标行,不扰动其他列
mask = df["PERSNR"].isin(selected_persnr)
df.loc[mask, "VALUE"] = (
df[mask][["PERSNR", "DATE"]]
.merge(agg_df, on=["PERSNR", "DATE"], how="left")["VALUE"]
.values
)
# 步骤 4:将目标子集中 XYZ=="b" 的 VALUE 设为 0
df.loc[mask & (df["XYZ"] == "b"), "VALUE"] = 0.0
print(df)输出:
PERSNR XYZ DATE VALUE 0 22222 a Jan 1.0 1 22222 b Jan 0.0 2 22222 a Feb 1.0 3 22222 b Feb 0.0 4 55555 a Jan 0.8 5 55555 b Jan 0.2
此方法兼顾准确性、可读性与工程健壮性,是 Pandas 数据校正任务的标准范式之一。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9