Pandas DataFrame 条件分组填列技巧

　　发布于2025-11-21　阅读（0）

扫一扫，手机访问

Pandas DataFrame 根据条件分组填充新列的高效策略

本文探讨了如何使用 Pandas 高效地根据多列条件对 DataFrame 进行分组，并填充新的列。核心策略是结合 mask 函数进行条件性值替换、groupby().transform('first') 进行组内值传播，以及 fillna 处理默认值，从而实现复杂的数据转换需求。

1. 问题背景与目标

在数据处理中，我们经常遇到需要根据复杂的条件对 DataFrame 进行操作的场景。一个常见需求是：给定一个 DataFrame，我们需要根据某一列（例如 Col1）进行分组，然后在每个组内检查另一列（例如 Col2）是否包含特定值（例如 'Y'）。如果包含，则将该组内所有行的目标新列（例如 New_Col）填充为该特定值所在行的某个关联列（例如 Col3）的值；如果不包含，则将该组内所有行的 New_Col 填充为它们各自原始的 Col3 值。

例如，考虑以下原始数据：

index	Col1	Col2	Col3
0	1	X	ABC
1	1	Y	XX
2	1	X	QW
3	2	X	VB
4	2	X	AY
5	3	X	MM
6	3	X	YY
7	3	Y	XX

我们的目标是生成如下所示的 New_Col：

index	Col1	Col2	Col3	New_Col
0	1	X	ABC	XX
1	1	Y	XX	XX
2	1	X	QW	XX
3	2	X	VB	VB
4	2	X	AY	AY
5	3	X	MM	XX
6	3	X	YY	XX
7	3	Y	XX	XX

可以看到，对于 Col1 为 1 和 3 的组，由于 Col2 中存在 'Y'，所以 New_Col 被填充为 'Y' 对应行的 Col3 值 'XX'。而对于 Col1 为 2 的组，Col2 中没有 'Y'，所以 New_Col 直接复制了 Col3 的值。

2. 环境准备与数据初始化

首先，我们需要创建一个示例 DataFrame 来模拟上述数据。

import pandas as pd
import numpy as np

# 创建示例 DataFrame
data = {
    'Col1': [1, 1, 1, 2, 2, 3, 3, 3],
    'Col2': ['X', 'Y', 'X', 'X', 'X', 'X', 'X', 'Y'],
    'Col3': ['ABC', 'XX', 'QW', 'VB', 'AY', 'MM', 'YY', 'XX']
}
df = pd.DataFrame(data)
df.index.name = 'index' # 设置索引名称与示例表保持一致
print("原始 DataFrame:")
print(df)

输出：

原始 DataFrame:
       Col1 Col2 Col3
index                 
0         1    X  ABC
1         1    Y   XX
2         1    X   QW
3         2    X   VB
4         2    X   AY
5         3    X   MM
6         3    X   YY
7         3    Y   XX

3. 解决方案详解

解决此类问题的关键在于巧妙地结合 Pandas 的 mask、groupby().transform() 和 fillna 方法。

3.1 核心思路

条件性隐藏/标记： 首先，我们识别出那些满足特定条件（Col2 == 'Y'）的行，并获取它们对应的 Col3 值。对于不满足条件的行，我们将其 Col3 值替换为 NaN。
组内值传播： 接着，我们根据 Col1 进行分组，并使用 transform('first') 将每个组内第一个非 NaN 的值（即我们标记的 Col3 值）传播到该组的所有行。如果一个组内所有值都是 NaN（即 Col2 中不含 'Y'），则 transform('first') 结果仍为 NaN。
默认值填充： 最后，对于那些在第二步中仍为 NaN 的行（即 Col2 中不含 'Y' 的组），我们使用原始的 Col3 值进行填充。

3.2 逐步实现与解释

我们将分三步详细解释代码的执行过程。

步骤 1: 条件性隐藏不符合条件的值 (mask)

使用 mask 函数，当条件 df['Col2'] != 'Y' 为真时，将 df['Col3'] 的值替换为 NaN。这样，只有当 Col2 为 'Y' 时，对应的 Col3 值才会被保留。

# 步骤 1: 隐藏不符合条件的值
masked_col3 = df['Col3'].mask(df['Col2'] != 'Y')
print("\n步骤 1: 隐藏不符合条件的值 (masked_col3):")
print(masked_col3)

输出：

步骤 1: 隐藏不符合条件的值 (masked_col3):
index
0    NaN
1     XX
2    NaN
3    NaN
4    NaN
5    NaN
6    NaN
7     XX
Name: Col3, dtype: object

此时，masked_col3 中，只有 Col2 为 'Y' 的行保留了其 Col3 值，其余都变成了 NaN。

步骤 2: 组内值传播 (groupby().transform('first'))

接下来，我们对 masked_col3 按照 Col1 进行分组，并应用 transform('first')。transform('first') 会为每个组返回其第一个非 NaN 的值，并将其广播到该组的所有行。如果一个组内所有值都是 NaN，则该组的所有行都将得到 NaN。

# 步骤 2: 组内值传播
propagated_col = masked_col3.groupby(df['Col1']).transform('first')
print("\n步骤 2: 组内值传播 (propagated_col):")
print(propagated_col)

输出：

步骤 2: 组内值传播 (propagated_col):
index
0      XX
1      XX
2      XX
3    None
4    None
5      XX
6      XX
7      XX
Name: Col3, dtype: object

观察结果：

对于 Col1 为 1 的组，masked_col3 中第一个非 NaN 的值是索引 1 处的 'XX'，所以整个组都被填充为 'XX'。
对于 Col1 为 2 的组，masked_col3 中所有值都是 NaN，所以整个组被填充为 None (Pandas 在某些情况下会显示 None 而不是 NaN，但它们行为类似)。
对于 Col1 为 3 的组，masked_col3 中第一个非 NaN 的值是索引 7 处的 'XX'，所以整个组都被填充为 'XX'。

步骤 3: 填充默认值 (fillna)

最后一步是处理那些在 propagated_col 中仍为 NaN（或 None）的行。这些行对应于 Col2 中不包含 'Y' 的组。根据需求，我们将这些 NaN 值替换为原始 df['Col3'] 的相应值。

# 步骤 3: 填充默认值
final_new_col = propagated_col.fillna(df['Col3'])
print("\n步骤 3: 填充默认值 (final_new_col):")
print(final_new_col)

输出：

步骤 3: 填充默认值 (final_new_col):
index
0    XX
1    XX
2    XX
3    VB
4    AY
5    XX
6    XX
7    XX
Name: Col3, dtype: object

现在，final_new_col 已经包含了我们期望的所有值。

3.3 完整代码

将上述步骤整合到一行代码中，并将其赋值给新的列 New_Col：

import pandas as pd
import numpy as np

# 创建示例 DataFrame
data = {
    'Col1': [1, 1, 1, 2, 2, 3, 3, 3],
    'Col2': ['X', 'Y', 'X', 'X', 'X', 'X', 'X', 'Y'],
    'Col3': ['ABC', 'XX', 'QW', 'VB', 'AY', 'MM', 'YY', 'XX']
}
df = pd.DataFrame(data)
df.index.name = 'index'

# 填充新列
df['New_Col'] = (df['Col3'].mask(df['Col2'] != 'Y')
                           .groupby(df['Col1'])
                           .transform('first')
                           .fillna(df['Col3']))

print("\n最终 DataFrame:")
print(df)

输出：

最终 DataFrame:
       Col1 Col2 Col3 New_Col
index                          
0         1    X  ABC      XX
1         1    Y   XX      XX
2         1    X   QW      XX
3         2    X   VB      VB
4         2    X   AY      AY
5         3    X   MM      XX
6         3    X   YY      XX
7         3    Y   XX      XX

结果与期望的输出完全一致。

4. 注意事项与总结

性能优势： 这种方法利用了 Pandas 的矢量化操作，相比于使用 apply 结合自定义函数（尤其是在大型 DataFrame 上）通常具有更好的性能。transform 方法特别适合在分组后将聚合结果广播回原始 DataFrame 的每个行。
mask 与 where 的选择： mask 和 where 功能相反。mask(condition, other) 在 condition 为 True 时替换为 other，否则保留原值。where(condition, other) 在 condition 为 False 时替换为 other，否则保留原值。在此场景中，我们希望当 Col2 != 'Y' 时替换为 NaN，所以 mask 是更直观的选择。
transform('first') 对 NaN 的处理： transform('first') 会返回组内遇到的第一个非 NaN 值。如果一个组内所有值都是 NaN，它将返回 NaN（或 None），这正是我们希望利用的行为。
灵活性： 这种模式非常灵活，可以根据不同的条件和填充逻辑进行调整。例如，如果需要在 Col2 包含 'Y' 时填充该组的 Col3 的平均值而不是第一个值，可以将 transform('first') 替换为 transform('mean')（当然，Col3 需要是数值类型）。
链式操作： 整个解决方案通过链式调用 Pandas 方法实现，代码简洁且易于阅读。

通过这种结合 mask、groupby().transform() 和 fillna 的策略，我们能够高效且优雅地解决根据分组条件填充 DataFrame 新列的复杂问题，极大地提升了数据处理的效率和代码的可维护性。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：悟空浏览器如何查看下载记录

下一篇：安全之外，海尔金吾卫S900深度体验

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

安排 Java 中 Local 内部类访问外部局部变量时必须为 final 的编译器约束原理

安排 Ja va 中 Local 内部类访问外部局部变量时必须为 final 的编译器约束原理 Local 内部类访问局部变量时为何编译器强制 final（或 effectively final）很多开发者初次遇到这个编译错误时，可能会觉得这是 Ja va 语法上一个略显刻板的规定。但真相是，这背

昨天 05-06 16:09 0
正版软件

如何通过 LockSupport.parkNanos 实现在 Java 层面具有微秒级精度的自定义时间片轮转调度

如何通过 LockSupport.parkNanos 实现在 Ja va 层面具有微秒级精度的自定义时间片轮转调度开门见山地说，指望LockSupport.parkNanos来实现微秒级精度的调度控制，恐怕会落空。它在Ja va层面所承诺的“时间片轮转精度”更像是一种假象，其底层行为完全受制于操作

昨天 05-06 16:08 0
正版软件

如何在 Java 中利用 byte 变量的位掩码操作提取 IP 地址段中的特定子网信息

Ja va中byte是有符号8位整数，用于IP子网计算时需先与0xFF按位与转为无符号值再运算，否则符号扩展会导致错误；正确做法是逐字节执行(ipByte & 0xFF) & (maskByte & 0xFF)。在Ja va里处理网络编程，尤其是和IP地址打交道时，byte类型常常是个“小陷阱”。

昨天 05-06 16:08 0
正版软件

怎么通过 Optional 类规避 NullPointerException 并将其转化为更具语义的流程控制

怎么通过 Optional 类规避 NullPointerException 并将其转化为更具语义的流程控制先澄清一个常见的误解：引入 Optional 的核心目标，并非简单地“消灭” NullPointerException。它的真正价值在于，将“值可能为空”这一事实，从运行时不可见的隐患，提升

昨天 05-06 16:07 0
正版软件

如何利用 Maven Profile 机制实现开发、测试、生产环境配置的全自动化切换

如何利用 Ma ven Profile 机制实现开发、测试、生产环境配置的全自动化切换 profile 必须显式用 -P 激活，IDE 默认不认 true 你是不是也遇到过这种情况：在 pom.xml 里信心满满地设置了 true，结果在 IntelliJ 或 Eclipse 里，它压根儿没按你预想

昨天 05-06 16:07 0