您的位置:首页 >Pandas DataFrame 加权随机列选择与赋值技巧
发布于2026-04-18 阅读(0)
扫一扫,手机访问

本文介绍一种向量化方法,替代低效的逐行迭代(iterrows),通过概率归一化、累积和构建与广播比较,大幅提升大规模 DataFrame 中按列值加权随机选列的执行效率。
本文介绍一种向量化方法,替代低效的逐行迭代(`iterrows`),通过概率归一化、累积和构建与广播比较,大幅提升大规模 DataFrame 中按列值加权随机选列的执行效率。
在 Pandas 数据处理中,若需基于每行各列数值作为权重,为每一行随机选取一个列名(如 dog/cat/parrot)并写入新列,传统 for index, row in df.iterrows() 循环极易成为性能瓶颈——尤其当数据量达万行以上时,Python 层循环 + 多次 .iloc 和 .at 赋值会显著拖慢速度。
核心优化思路是:完全避免显式循环,转而使用 NumPy 向量化操作完成整列计算。具体分三步:
以下是完整、可直接运行的优化代码:
import pandas as pd
import numpy as np
# 示例数据
df = pd.DataFrame({
'dog': [1, 2, 3, 4],
'cat': [5, 6, 7, 8],
'parrot': [9, 10, 11, 12],
'owner': ['fred', 'bob', 'jim', 'jannet']
})
relevant_col_list = ['dog', 'cat', 'parrot']
# ✅ 向量化实现(高效)
weights = df[relevant_col_list]
normalized = weights.div(weights.sum(axis=1), axis=0) # 每行归一化
cumprobs = normalized.cumsum(axis=1).to_numpy() # 累积概率矩阵 (n_rows × n_cols)
r = np.random.random(len(df)) # 一行一随机数
chosen_idx = (cumprobs > r[:, None]).argmax(axis=1) # 每行首个超界列索引
df['iteration_1'] = np.array(relevant_col_list)[chosen_idx]
print(df)输出示例(随机结果每次不同):
dog cat parrot owner iteration_1 0 1 5 9 fred parrot 1 2 6 10 bob parrot 2 3 7 11 jim dog 3 4 8 12 jannet cat
✅ 关键优势:
⚠️ 注意事项:
综上,将“逐行加权随机选择”转化为“累积概率 + 广播比较 + 索引映射”,是 Pandas 高性能数据构造的经典范式之一——既保持逻辑清晰,又释放底层计算潜力。
下一篇:C#零拷贝文件传输方法解析
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9