Pandas DataFrame循环拆分技巧

　　发布于2025-12-14　阅读（0）

扫一扫，手机访问

Pandas DataFrame：基于循环模式的高效拆分策略

本教程探讨了如何在Pandas DataFrame中根据重复的序列模式（例如交通路线中的站点循环）进行数据拆分。文章提供了两种主要方法：一种是利用`groupby`结合累积求和动态识别并分组每个循环，另一种是利用`numpy.array_split`基于唯一停靠点数量进行固定间隔拆分。通过具体示例代码，本文旨在帮助读者高效地将连续数据流分解为独立的、结构化的子DataFrame。

在数据分析和处理中，我们经常会遇到需要将一个大型数据集根据其内部的重复模式或周期性结构进行拆分的场景。一个典型的例子是公共交通数据，其中一辆巴士在一天内会重复执行相同的站点序列（例如A->B->C），形成多个独立的行程（或“循环”）。即使不知道每个循环具体包含多少个停靠点，我们仍然希望将原始DataFrame拆分成多个子DataFrame，每个子DataFrame代表一个完整的行程循环。

为了更好地说明这一需求，我们构建一个包含计划时间和停靠站点的Pandas DataFrame：

import pandas as pd

df = pd.DataFrame({
    "scheduled": ["2023-05-25 13:00", "2023-05-25 13:15", "2023-05-25 13:45",
                  "2023-05-25 14:35", "2023-05-25 14:50", "2023-05-25 15:20"],
    "stop": ["A", "B", "C", "A", "B", "C"]
})
df["scheduled"] = pd.to_datetime(df["scheduled"])

print("原始DataFrame:")
print(df)

输出的DataFrame如下所示，清晰地展示了“A->B->C”的站点序列重复了两次：

原始DataFrame:
            scheduled stop
0 2023-05-25 13:00:00    A
1 2023-05-25 13:15:00    B
2 2023-05-25 13:45:00    C
3 2023-05-25 14:35:00    A
4 2023-05-25 14:50:00    B
5 2023-05-25 15:20:00    C

我们的目标是将这个DataFrame拆分为两个子DataFrame，每个子DataFrame对应一个完整的“A->B->C”行程。

方法一：利用 groupby 和动态分组标识符

这种方法的核心思想是动态地识别每个循环的起始点，并为每个循环分配一个唯一的组ID。它特别适用于我们不确定每个循环具体有多少个停靠点，但知道循环模式会重复的情况。

实现步骤：

识别循环起点： 我们假设每个循环都以相同的停靠点开始（在本例中是“A”）。通过比较 stop 列的当前值与第一个停靠点的值 (df['stop'].iloc[0])，我们可以得到一个布尔序列，其中 True 表示循环的起点。
```
df['stop'].eq(df['stop'].iloc[0])
# 输出示例:
# 0     True
# 1    False
# 2    False
# 3     True
# 4    False
# 5    False
# Name: stop, dtype: bool
```

生成组ID： 对上述布尔序列执行累积求和 (cumsum())。每当遇到 True（即循环起点）时，累积和就会增加1，从而为新的循环分配一个递增的组ID。

group_id = df['stop'].eq(df['stop'].iloc[0]).cumsum()
# 输出示例:
# 0    1
# 1    1
# 2    1
# 3    2
# 4    2
# 5    2
# Name: stop, dtype: int64

为了更好地理解，我们可以将这个 group_id 列添加到原始DataFrame中作为中间步骤的参考：

df_with_group = df.copy() # 创建副本以避免修改原始df
df_with_group['group'] = group_id
print("\n带有分组ID的DataFrame:")
print(df_with_group)

输出结果如下，清晰地展示了每个行程的组ID：

带有分组ID的DataFrame:
        scheduled stop  group
0 2023-05-25 13:00:00    A      1
1 2023-05-25 13:15:00    B      1
2 2023-05-25 13:45:00    C      1
3 2023-05-25 14:35:00    A      2
4 2023-05-25 14:50:00    B      2
5 2023-05-25 15:20:00    C      2

使用 groupby 拆分： 最后，使用 groupby() 方法

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Golang map操作错误怎么避免

下一篇：Python命令在Windows运行方法教程

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

饿了么app怎么绑定银行卡?饿了么app绑定银行卡方法教程

饿了么app如何绑定银行卡？亲爱的美食家们，有没有在点外卖时因为忘记钱包余额不足而懊恼？有没有因为支付不便而放弃心爱的美食？为了解决您的这些烦恼，小编特别为您准备了这个教程——饿了么app如何绑定银行卡。

14小时前 13:57 0
正版软件

微博怎么查看自己经常访问的人?微博查看频繁访问的人方法教程

微博怎么查看自己经常访问的人？微博是很多小伙伴都在使用的一款社交软件，这个软件功能强大，导致很多功能需要自己去挖掘，很多小伙伴反映想知道要怎么查看频繁访问的人，那么今天小编就来教一教大家查看方法，感兴趣的小伙伴一起来了解一下吧。

15小时前 13:14 0
正版软件

抖音怎么关闭在线状态?抖音关闭在线状态方法教程

抖音怎么关闭在线状态？我们在刷抖音短视频的时候，一些好友之间为了分享有趣的视频通常会互相关注，但互相关注了之后你的在线状态就会在好友那边显示出来，想必很多朋友都会被这个问题所困扰吧，那么怎么关闭抖音在线状态呢，接下来让小编来给大家详细介绍一下吧。

昨天 03-26 12:40 0
正版软件

纷玩岛如何预约抢票?纷玩岛预约抢票方法教程

纷玩岛如何预约抢票？纷玩岛是一款购票软件，用户可通过该app查询歌手演出情况并下单购票。为了避免错过演唱会门票的开票，用户可提前预约，软件会在开票前发送推送通知。但很多小伙伴不知道怎么预约抢票呢？今天小编将给大家带来的是纷玩岛预约抢票的方法，快来看看吧！

昨天 03-26 12:02 0
正版软件

qq怎么改防沉迷实名认证?qq防沉迷实名认证改绑方法教程

qq怎么改绑防沉迷实名认证？随着网络游戏的普及，越来越多的人会使用qq账号来登录游戏，游戏中的防沉迷实名认证系统自然就会与所登录的qq账号绑定在一起，那么想要更改防沉迷实名认证怎么办呢？下面小编就给大家带来了qq防沉迷实名认证改绑方法步骤，希望能对大家有所帮助。

昨天 03-26 11:48 0

Pandas DataFrame循环拆分技巧

方法一：利用 groupby 和动态分组标识符

产品推荐

最新发布

相关推荐

热门关注