您的位置:首页 >Pandas中使用NumPy.where修改列值方法
发布于2025-10-29 阅读(0)
扫一扫,手机访问

在数据分析和处理中,我们经常需要根据特定条件对DataFrame中的列值进行修改。例如,在体育博彩数据分析中,赔率的表示方式多种多样,其中小数赔率(Decimal Odds)和美式赔率(American Odds)是常见的两种。当我们需要将小数赔率转换为美式赔率时,转换公式并非单一,而是取决于小数赔率本身的值:
这种根据条件应用不同计算逻辑的需求,在Pandas中可以通过多种方式实现,但最推荐且高效的方法是使用NumPy库中的np.where函数。
np.where函数是NumPy提供的一个非常强大的条件选择函数,它能够根据条件数组的值,从两个不同的数组中选择元素。其基本语法为:np.where(condition, x, y)。
np.where的优势在于其矢量化操作能力。与使用循环或apply方法相比,它在处理大型数据集时效率更高,因为它是在底层C语言级别执行的,避免了Python层的循环开销。
假设我们有一个包含小数赔率的Pandas DataFrame,如下所示:
| index | Team A | Team B | Site A | Site B | Odds A | Odds B | Profit % | Bet A | Bet B |
|---|---|---|---|---|---|---|---|---|---|
| 21 | Oklahoma City Thunder | Philadelphia 76ers | FanDuel | DraftKings | 2.26 | 2.35 | 13.2 | 195.79 | 181.08 |
| 23 | Oklahoma City Thunder | Philadelphia 76ers | FanDuel | BetMGM | 2.26 | 2.35 | 13.2 | 195.79 | 181.08 |
| 25 | Oklahoma City Thunder | Philadelphia 76ers | FanDuel | Caesars | 2.26 | 2.35 | 13.2 | 195.79 | 181.08 |
| 27 | Oklahoma City Thunder | Philadelphia 76ers | DraftKings | BetMGM | 2.35 | 2.35 | 14.89 | 181.08 | 181.08 |
我们将使用np.where将Odds A和Odds B两列的小数赔率转换为美式赔率。
import pandas as pd
import numpy as np
# 创建示例DataFrame
data = {
'Team A': ['Oklahoma City Thunder', 'Oklahoma City Thunder', 'Oklahoma City Thunder', 'Oklahoma City Thunder'],
'Team B': ['Philadelphia 76ers', 'Philadelphia 76ers', 'Philadelphia 76ers', 'Philadelphia 76ers'],
'Site A': ['FanDuel', 'FanDuel', 'FanDuel', 'DraftKings'],
'Site B': ['DraftKings', 'BetMGM', 'Caesars', 'BetMGM'],
'Odds A': [2.26, 2.26, 2.26, 2.35],
'Odds B': [2.35, 2.35, 2.35, 2.35],
'Profit %': [13.2, 13.2, 13.2, 14.89],
'Bet A': [195.79, 195.79, 195.79, 181.08],
'Bet B': [181.08, 181.08, 181.08, 181.08]
}
df = pd.DataFrame(data, index=[21, 23, 25, 27])
print("原始DataFrame:")
print(df)
print("-" * 30)
# 转换 'Odds A' 列
# 条件:如果 'Odds A' < 2
# True时执行:100 / (df['Odds A'] - 1)
# False时执行:100 * (df['Odds A'] - 1)
df['Odds A'] = np.where(df['Odds A'] < 2, 100 / (df['Odds A'] - 1), 100 * (df['Odds A'] - 1))
# 转换 'Odds B' 列
df['Odds B'] = np.where(df['Odds B'] < 2, 100 / (df['Odds B'] - 1), 100 * (df['Odds B'] - 1))
print("\n转换后的DataFrame (美式赔率):")
print(df)输出结果示例(转换后的Odds A和Odds B列将显示美式赔率):
原始DataFrame:
Team A Team B Site A Site B Odds A Odds B Profit % Bet A Bet B
21 Oklahoma City Thunder Philadelphia 76ers FanDuel DraftKings 2.26 2.35 13.2 195.79 181.08
23 Oklahoma City Thunder Philadelphia 76ers FanDuel BetMGM 2.26 2.35 13.2 195.79 181.08
25 Oklahoma City Thunder Philadelphia 76ers FanDuel Caesars 2.26 2.35 13.2 195.79 181.08
27 Oklahoma City Thunder Philadelphia 76ers DraftKings BetMGM 2.35 2.35 14.89 181.08 181.08
------------------------------
转换后的DataFrame (美式赔率):
Team A Team B Site A Site B Odds A Odds B Profit % Bet A Bet B
21 Oklahoma City Thunder Philadelphia 76ers FanDuel DraftKings 126.000000 135.000000 13.2 195.79 181.08
23 Oklahoma City Thunder Philadelphia 76ers FanDuel BetMGM 126.000000 135.000000 13.2 195.79 181.08
25 Oklahoma City Thunder Philadelphia 76ers FanDuel Caesars 126.000000 135.000000 13.2 195.79 181.08
27 Oklahoma City Thunder Philadelphia 76ers DraftKings BetMGM 135.000000 135.000000 14.89 181.08 181.08在上述代码中,关键在于这两行:
df['Odds A'] = np.where(df['Odds A'] < 2, 100 / (df['Odds A'] - 1), 100 * (df['Odds A'] - 1)) df['Odds B'] = np.where(df['Odds B'] < 2, 100 / (df['Odds B'] - 1), 100 * (df['Odds B'] - 1))
np.where函数对整个列(Series)进行操作,而不是逐个元素地循环。它根据布尔Series的每个对应位置,选择计算x表达式或y表达式的结果,并最终返回一个新的Series。这个新的Series随后被赋值回原始DataFrame的相应列,从而实现了列值的条件性更新。
本教程展示了如何利用NumPy的np.where函数在Pandas DataFrame中高效地进行条件性列值转换。通过体育赔率转换的实例,我们深入理解了np.where的工作原理、语法结构及其在实际数据处理中的应用。掌握np.where是进行高效数据清洗和特征工程的关键技能之一,能够帮助数据分析师和工程师更灵活、更快速地处理各种复杂的数据转换需求。
上一篇:126邮箱登录入口及安全方式
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9