商城首页欢迎来到中国正版软件门户

您的位置:首页 >Pandas中使用NumPy.where修改列值方法

Pandas中使用NumPy.where修改列值方法

  发布于2025-10-29 阅读(0)

扫一扫,手机访问

使用NumPy.where在Pandas DataFrame中根据条件转换列值

本教程详细介绍了如何在Pandas DataFrame中根据特定条件高效地转换列值,以体育赔率格式转换为例。文章重点讲解了如何利用NumPy的np.where函数,根据赔率大小(大于等于2或小于2)应用不同的数学公式,实现从小数赔率到美式赔率的精确转换,并提供了清晰的代码示例和操作步骤,帮助读者掌握数据清洗与转换的实用技巧。

引言:数据条件转换的普遍需求

在数据分析和处理中,我们经常需要根据特定条件对DataFrame中的列值进行修改。例如,在体育博彩数据分析中,赔率的表示方式多种多样,其中小数赔率(Decimal Odds)和美式赔率(American Odds)是常见的两种。当我们需要将小数赔率转换为美式赔率时,转换公式并非单一,而是取决于小数赔率本身的值:

  • 如果小数赔率(Odds)大于或等于2,美式赔率的计算公式为:(Odds - 1) * 100。
  • 如果小数赔率(Odds)小于2,美式赔率的计算公式为:-100 / (Odds - 1)。

这种根据条件应用不同计算逻辑的需求,在Pandas中可以通过多种方式实现,但最推荐且高效的方法是使用NumPy库中的np.where函数。

核心工具:NumPy的np.where函数

np.where函数是NumPy提供的一个非常强大的条件选择函数,它能够根据条件数组的值,从两个不同的数组中选择元素。其基本语法为:np.where(condition, x, y)。

  • condition:一个布尔数组,其元素为True或False。
  • x:当condition中对应元素为True时,选择x中的对应元素。
  • y:当condition中对应元素为False时,选择y中的对应元素。

np.where的优势在于其矢量化操作能力。与使用循环或apply方法相比,它在处理大型数据集时效率更高,因为它是在底层C语言级别执行的,避免了Python层的循环开销。

实战演练:小数赔率转美式赔率

假设我们有一个包含小数赔率的Pandas DataFrame,如下所示:

indexTeam ATeam BSite ASite BOdds AOdds BProfit %Bet ABet B
21Oklahoma City ThunderPhiladelphia 76ersFanDuelDraftKings2.262.3513.2195.79181.08
23Oklahoma City ThunderPhiladelphia 76ersFanDuelBetMGM2.262.3513.2195.79181.08
25Oklahoma City ThunderPhiladelphia 76ersFanDuelCaesars2.262.3513.2195.79181.08
27Oklahoma City ThunderPhiladelphia 76ersDraftKingsBetMGM2.352.3514.89181.08181.08

我们将使用np.where将Odds A和Odds B两列的小数赔率转换为美式赔率。

import pandas as pd
import numpy as np

# 创建示例DataFrame
data = {
    'Team A': ['Oklahoma City Thunder', 'Oklahoma City Thunder', 'Oklahoma City Thunder', 'Oklahoma City Thunder'],
    'Team B': ['Philadelphia 76ers', 'Philadelphia 76ers', 'Philadelphia 76ers', 'Philadelphia 76ers'],
    'Site A': ['FanDuel', 'FanDuel', 'FanDuel', 'DraftKings'],
    'Site B': ['DraftKings', 'BetMGM', 'Caesars', 'BetMGM'],
    'Odds A': [2.26, 2.26, 2.26, 2.35],
    'Odds B': [2.35, 2.35, 2.35, 2.35],
    'Profit %': [13.2, 13.2, 13.2, 14.89],
    'Bet A': [195.79, 195.79, 195.79, 181.08],
    'Bet B': [181.08, 181.08, 181.08, 181.08]
}
df = pd.DataFrame(data, index=[21, 23, 25, 27])

print("原始DataFrame:")
print(df)
print("-" * 30)

# 转换 'Odds A' 列
# 条件:如果 'Odds A' < 2
# True时执行:100 / (df['Odds A'] - 1)
# False时执行:100 * (df['Odds A'] - 1)
df['Odds A'] = np.where(df['Odds A'] < 2, 100 / (df['Odds A'] - 1), 100 * (df['Odds A'] - 1))

# 转换 'Odds B' 列
df['Odds B'] = np.where(df['Odds B'] < 2, 100 / (df['Odds B'] - 1), 100 * (df['Odds B'] - 1))

print("\n转换后的DataFrame (美式赔率):")
print(df)

输出结果示例(转换后的Odds A和Odds B列将显示美式赔率):

原始DataFrame:
                      Team A              Team B    Site A      Site B  Odds A  Odds B  Profit %   Bet A   Bet B
21  Oklahoma City Thunder  Philadelphia 76ers   FanDuel  DraftKings    2.26    2.35      13.2  195.79  181.08
23  Oklahoma City Thunder  Philadelphia 76ers   FanDuel      BetMGM    2.26    2.35      13.2  195.79  181.08
25  Oklahoma City Thunder  Philadelphia 76ers   FanDuel     Caesars    2.26    2.35      13.2  195.79  181.08
27  Oklahoma City Thunder  Philadelphia 76ers  DraftKings      BetMGM    2.35    2.35      14.89  181.08  181.08
------------------------------

转换后的DataFrame (美式赔率):
                      Team A              Team B    Site A      Site B      Odds A      Odds B  Profit %   Bet A   Bet B
21  Oklahoma City Thunder  Philadelphia 76ers   FanDuel  DraftKings  126.000000  135.000000      13.2  195.79  181.08
23  Oklahoma City Thunder  Philadelphia 76ers   FanDuel      BetMGM  126.000000  135.000000      13.2  195.79  181.08
25  Oklahoma City Thunder  Philadelphia 76ers   FanDuel     Caesars  126.000000  135.000000      13.2  195.79  181.08
27  Oklahoma City Thunder  Philadelphia 76ers  DraftKings      BetMGM  135.000000  135.000000      14.89  181.08  181.08

代码详解与原理分析

在上述代码中,关键在于这两行:

df['Odds A'] = np.where(df['Odds A'] < 2, 100 / (df['Odds A'] - 1), 100 * (df['Odds A'] - 1))
df['Odds B'] = np.where(df['Odds B'] < 2, 100 / (df['Odds B'] - 1), 100 * (df['Odds B'] - 1))
  • df['Odds A'] < 2:这是condition部分。它会生成一个布尔Series,指示Odds A列中每个值是否小于2。
  • 100 / (df['Odds A'] - 1):这是x部分。当condition为True时(即小数赔率小于2),将应用此公式。
  • 100 * (df['Odds A'] - 1):这是y部分。当condition为False时(即小数赔率大于等于2),将应用此公式。

np.where函数对整个列(Series)进行操作,而不是逐个元素地循环。它根据布尔Series的每个对应位置,选择计算x表达式或y表达式的结果,并最终返回一个新的Series。这个新的Series随后被赋值回原始DataFrame的相应列,从而实现了列值的条件性更新。

注意事项与性能优化

  1. 矢量化操作的优势: 始终优先考虑使用np.where这类矢量化操作,而不是自定义函数与apply结合的方式(尤其是在axis=0或axis=1不明确时),因为矢量化操作通常能带来显著的性能提升,特别是在处理大规模数据时。
  2. 避免ZeroDivisionError: 在本例中,赔率通常不会为1,所以Odds - 1不会是0。但在其他需要除法的场景中,请务必检查分母是否可能为零,以避免ZeroDivisionError。可以通过添加一个额外的np.where层或预处理数据来处理这种情况。
  3. 多列处理: 如果需要对多列执行相同的条件转换逻辑,如本例中的Odds A和Odds B,可以重复应用np.where。如果列名具有规律性,也可以通过循环遍历列名列表来简化代码。
  4. 复杂条件: 对于更复杂的条件,可以使用&(与)、|(或)等逻辑运算符组合多个条件,但请记住,Pandas中的布尔Series在进行逻辑运算时需要用括号明确优先级。

总结

本教程展示了如何利用NumPy的np.where函数在Pandas DataFrame中高效地进行条件性列值转换。通过体育赔率转换的实例,我们深入理解了np.where的工作原理、语法结构及其在实际数据处理中的应用。掌握np.where是进行高效数据清洗和特征工程的关键技能之一,能够帮助数据分析师和工程师更灵活、更快速地处理各种复杂的数据转换需求。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注