Pandas DataFrame 加权随机列选择与赋值技巧

　　发布于2026-04-18　阅读（0）

扫一扫，手机访问

如何高效实现 Pandas DataFrame 中按权重随机列选择与赋值

本文介绍一种向量化方法，替代低效的逐行迭代（iterrows），通过概率归一化、累积和构建与广播比较，大幅提升大规模 DataFrame 中按列值加权随机选列的执行效率。

本文介绍一种向量化方法，替代低效的逐行迭代（`iterrows`），通过概率归一化、累积和构建与广播比较，大幅提升大规模 DataFrame 中按列值加权随机选列的执行效率。

在 Pandas 数据处理中，若需基于每行各列数值作为权重，为每一行随机选取一个列名（如 dog/cat/parrot）并写入新列，传统 for index, row in df.iterrows() 循环极易成为性能瓶颈——尤其当数据量达万行以上时，Python 层循环 + 多次 .iloc 和 .at 赋值会显著拖慢速度。

核心优化思路是：完全避免显式循环，转而使用 NumPy 向量化操作完成整列计算。具体分三步：

提取并归一化权重：从原始 DataFrame 中筛选目标列（如 ['dog', 'cat', 'parrot']），沿行方向（axis=1）归一化，使每行权重和为 1；
构建累积概率矩阵：对归一化结果调用 .cumsum(axis=1)，生成每行递增的累积概率边界（如 [0.07, 0.40, 1.00]）；
批量随机采样与定位：生成与行数等长的 [0,1) 均匀随机数组 r，利用广播比较 tmp > r[:, None] 得到布尔矩阵，再用 argmax(axis=1) 找到每行首个 True 的列索引，最终映射回列名。

以下是完整、可直接运行的优化代码：

import pandas as pd
import numpy as np

# 示例数据
df = pd.DataFrame({
    'dog': [1, 2, 3, 4],
    'cat': [5, 6, 7, 8],
    'parrot': [9, 10, 11, 12],
    'owner': ['fred', 'bob', 'jim', 'jannet']
})
relevant_col_list = ['dog', 'cat', 'parrot']

# ✅ 向量化实现（高效）
weights = df[relevant_col_list]
normalized = weights.div(weights.sum(axis=1), axis=0)  # 每行归一化
cumprobs = normalized.cumsum(axis=1).to_numpy()         # 累积概率矩阵 (n_rows × n_cols)

r = np.random.random(len(df))                            # 一行一随机数
chosen_idx = (cumprobs > r[:, None]).argmax(axis=1)     # 每行首个超界列索引
df['iteration_1'] = np.array(relevant_col_list)[chosen_idx]

print(df)

输出示例（随机结果每次不同）：

   dog  cat  parrot   owner iteration_1
0    1    5       9    fred      parrot
1    2    6      10     bob      parrot
2    3    7      11     jim         dog
3    4    8      12  jannet         cat

✅ 关键优势：

时间复杂度从 O(n×m)（n 行，m 列）降至接近 O(n×m) 的纯向量化计算，但常数因子极小；
全程无 Python 循环，充分利用 NumPy 底层 C 优化；
内存友好：仅引入一个 (n, m) 形状的临时数组 cumprobs，无中间 DataFrame 复制。

⚠️ 注意事项：

确保目标列中无负值或全零行，否则归一化会报错或产生 NaN；建议前置校验：assert (weights >= 0).all().all() and (weights.sum(axis=1) > 0).all()；
若需复现结果，请在采样前设置 np.random.seed(42)；
此法适用于「每行独立采样」场景；若需跨行全局权重（如整个列的总和作权重），则需调整归一化逻辑。

综上，将“逐行加权随机选择”转化为“累积概率 + 广播比较 + 索引映射”，是 Pandas 高性能数据构造的经典范式之一——既保持逻辑清晰，又释放底层计算潜力。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Go 中正确测试 JSON HTTP 响应方法

下一篇：C#零拷贝文件传输方法解析

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Python内存问题定位全流程解析

Python内存问题定位需按五步系统化排查：一、监控内存趋势；二、检测对象引用；三、识别循环引用；四、分析堆内对象分布；五、隔离C扩展泄漏。

22分钟前 0
正版软件

如何安全获取线程执行结果列表

本文介绍一种线程安全、时间精确的方式，通过自定义ThreadUnion管理多线程生命周期，并实时收集每个完成线程的名称、结束时间及异常信息，避免ConcurrentModificationException和时间戳错乱问题。

37分钟前 0
正版软件

Go语言os/exec管道交互实战教程

根本原因是未调用Start()或Run()；路径问题（如Windows需cmd/c）、shell特性失效、输出处理方式错误（StdoutPipe需Start+goroutine+Wait）、超时需context手动Kill、交互式命令缺PTY支持。

52分钟前 0
正版软件

MySQL 5.7 按类别取前2条记录方法

本文介绍在不支持窗口函数的MySQL5.7环境下，高效实现“按category分组并各取前2行”的实用方案，包含兼容性SQL写法、原理说明及关键注意事项。

1小时前 08:30 0
正版软件

Go 中正确计算二次方程根的方法

Go的math.Sqrt函数对负数输入返回NaN，因为实数范围内平方根无定义；本文详解原因，并提供安全计算判别式、支持实数与复数解的完整二次方程求解方案。

1小时前 08:15 0

Pandas DataFrame 加权随机列选择与赋值技巧

产品推荐

最新发布

相关推荐

热门关注