Pandas NumPy 每组行数据相加方法

　　发布于2025-08-24　阅读（0）

扫一扫，手机访问

使用 Pandas 和 NumPy 在 Group 内将每行数据添加到每行

本文介绍了如何使用 Pandas 和 NumPy 结合，针对 DataFrame 中的分组数据，将组内每行特定的数据信息添加到该组的每一行中。通过 NumPy 的滚动索引技巧，高效地实现了数据的广播和扩展，避免了低效的循环操作，并提供了详细的代码示例和解释。

在数据分析中，经常会遇到需要在分组数据中进行行间操作的场景。例如，在赛马数据集中，我们可能需要将每匹马的信息添加到同一场比赛的其他马匹的信息中，以便进行更深入的比较和分析。本文将介绍如何使用 Pandas 和 NumPy 来高效地实现这一目标。

解决方案

核心思路是利用 NumPy 的滚动索引功能，避免显式循环，从而提升性能。具体步骤如下：

定义滚动函数 roll(g): 该函数接收一个 DataFrame Group 作为输入，并使用 NumPy 的索引技巧来滚动和重塑数据。
将 DataFrame 转换为 NumPy 数组: g.to_numpy() 将 DataFrame Group 转换为 NumPy 数组，以便进行高效的数值操作。
创建索引数组: np.arange(len(a)) 创建一个索引数组，用于生成滚动索引。
生成滚动索引: ((x[:,None] + x)%len(a)).ravel() 使用 NumPy 的广播功能和模运算，生成滚动索引。这个表达式的核心在于 x[:,None] + x，它创建了一个二维数组，其中每一行都是 x 加上一个不同的偏移量。%len(a) 确保索引在数组长度范围内循环。ravel() 将二维数组扁平化为一维数组，用于索引。
使用滚动索引提取数据: a[((x[:,None] + x)%len(a)).ravel()] 使用生成的滚动索引从 NumPy 数组中提取数据。
重塑数据为 DataFrame: reshape(len(a), -1) 将提取的数据重塑为 DataFrame 的形状。
创建新的列名: [f'{c}_{i+1}' for i in x for c in g.columns] 为新的 DataFrame 创建列名，其中 c 是原始列名，i 是滚动索引。
分组并应用滚动函数: 使用 data_orig_df.groupby(cols).apply(lambda g: roll(g.drop(columns=cols))) 对 DataFrame 进行分组，并对每个组应用 roll 函数。cols 是用于分组的列名，例如 ['meetingId', 'raceId']。drop(columns=cols) 从 DataFrame Group 中删除分组列，以便 roll 函数只处理需要滚动的数据列。
重置索引: reset_index(cols) 将分组列重新添加到 DataFrame 中。

代码示例

import pandas as pd
import numpy as np

data_orig = {
    'meetingId': [178515] * 6,
    'raceId': [879507] * 6,
    'horseId': [90001, 90002, 90003, 90004, 90005, 90006],
    'position': [1, 2, 3, 4, 5, 6],
    'weight': [51, 52, 53, 54, 55, 56],
}

data_orig_df = pd.DataFrame(data_orig)

def roll(g):
    a = g.to_numpy()
    x = np.arange(len(a))
    return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
                        index=g.index,
                        columns=[f'{c}_{i+1}' for i in x for c in g.columns])

cols = ['meetingId', 'raceId']

out = (data_orig_df.groupby(cols)
       .apply(lambda g: roll(g.drop(columns=cols)))
       .reset_index(cols)
       )

print(out)

代码解释

import pandas as pd: 导入 Pandas 库，用于数据处理。
import numpy as np: 导入 NumPy 库，用于数值计算。
data_orig: 包含原始数据的字典。
data_orig_df = pd.DataFrame(data_orig): 将字典转换为 Pandas DataFrame。
roll(g): 该函数是核心，它接收一个 DataFrame Group 作为输入，并使用 NumPy 的索引技巧来滚动和重塑数据。
cols = ['meetingId', 'raceId']: 定义用于分组的列名。
data_orig_df.groupby(cols): 根据 meetingId 和 raceId 列对 DataFrame 进行分组。
.apply(lambda g: roll(g.drop(columns=cols))): 对每个组应用 roll 函数，并删除分组列。
.reset_index(cols): 将分组列重新添加到 DataFrame 中。
print(out): 打印结果 DataFrame。

注意事项

确保数据类型一致：在进行 NumPy 操作之前，确保 DataFrame 中的数据类型一致，避免出现类型错误。
处理大数据集：对于非常大的数据集，可以考虑使用更高效的 NumPy 函数或使用 Dask 等分布式计算框架。
内存占用：滚动操作可能会增加内存占用，需要根据数据集的大小进行调整。

总结

本文介绍了如何使用 Pandas 和 NumPy 结合，高效地将分组数据中每行的数据添加到该组的每一行中。通过 NumPy 的滚动索引技巧，避免了低效的循环操作，并提供了详细的代码示例和解释。掌握这种方法可以帮助你更高效地处理分组数据，进行更深入的数据分析。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：苏宁任性付申请攻略及开通条件详解

下一篇：漫步者蓝牙耳机怎么开机详解

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

讯飞输入法怎么用?讯飞输入法使用技巧教程

讯飞输入法的好多功能都不知道怎么用？只会切换9键、26键、手写等功能？那其实你错过了很多使用小技巧，只要你学会这些技巧，不止可以带你玩转讯飞输入法，还能有效提高你的打字速度、聊天话术、DIY漂亮话、自制表情包、发颜表情等，轻松体验更多有趣有意思的小玩法，让输入变得既高效又有趣！

11小时前 10:41 0
正版软件

小青账如何隐藏默认账本?小青账隐藏默认账本教程

小青账如何隐藏默认账本？小青账是一款非常实用且强大的记账软件，为广大用户提供了方便的记账功能。不少用户对如何隐藏默认账本感到困惑，下面小编将介绍小青账隐藏默认账本的操作方法。还不知道的小伙伴快来看看吧！

前天 03-22 13:05 0
正版软件

如何使用讯飞星火生成ppt?利用讯飞星火AI生成高质量ppt教程

讯飞星火怎么生成高质量ppt？你是否曾经在深夜里为第二天的工作汇报而焦头烂额，翻遍互联网寻找灵感和模板，又或者因为繁琐的排版和设计而感到力不从心？现在，有了讯飞星火AI生成PPT，你的所有烦恼都将一扫而光！

前天 03-22 12:52 0
正版软件

搜狐视频怎么投屏到电视播放?搜狐视频app电视投屏方法教程

搜狐视频怎么投屏到电视播放？有时候我们在看电视的时候会觉得怕屏幕不够大，看的不大清楚，这时候就会想如果有个大屏幕就好了，今天小编教你们如何用搜狐视频投屏到电视上，彻底的解放双手。搜狐视频app电视投屏教程1、首先打开搜狐视频app，搜索想看的视频或影视剧2、进入详情页后点击有TV字样的图标3、然后搜索附近的设备连接我们的电视4、当电视上出现了手机正在播放的

前天 03-22 12:38 0
正版软件

豆瓣怎么设置主页不可见?豆瓣设置隐私主页教程

豆瓣怎么设置主页不可见？大家在使用豆瓣的时候，经常会在主页发布自己的心情状态、吐槽等等内容，然后其他用户进我们的主页的时候就能很轻松的看到我们发过的内容，那么我们能不能设置主页的隐私呢？要怎么设置呢？下面小编就为大家介绍一下豆瓣个人主页设置隐私的办法。

前天 03-22 10:50 0

Pandas NumPy 每组行数据相加方法

解决方案

代码示例

代码解释

注意事项

总结

产品推荐

最新发布

相关推荐

热门关注