商城首页欢迎来到中国正版软件门户

您的位置:首页 >Pandas 实现基于动态时间间隔的行筛选(非均匀步长采样)

Pandas 实现基于动态时间间隔的行筛选(非均匀步长采样)

  发布于2026-04-01 阅读(0)

扫一扫,手机访问

Pandas 实现基于动态时间间隔的行筛选(非均匀步长采样)

本文介绍如何在 Pandas 中实现按循环变化的时间间隔(如 [1.0, 1.5])对时序数据进行智能行筛选:从首行开始,依次累加当前间隔阈值,选取首个满足时间条件的后续行,支持周期性切换间隔,适用于传感器采样、日志降频等场景。

本文介绍如何在 Pandas 中实现按循环变化的时间间隔(如 [1.0, 1.5])对时序数据进行智能行筛选:从首行开始,依次累加当前间隔阈值,选取首个满足时间条件的后续行,支持周期性切换间隔,适用于传感器采样、日志降频等场景。

在实际数据分析中,我们常需对高频时序数据进行有策略的降采样——但标准的 .resample() 或 .iloc[::n] 仅支持固定频率或等距索引,无法应对“首段跳 1.0 秒、次段跳 1.5 秒、再跳 1.0 秒……”这类非均匀、循环式时间步长的筛选需求。Pandas 原生过滤方法(如布尔索引、.query())也无法直接表达“相对于上一个选中行的动态偏移”逻辑,因此需结合 Python 控制流与向量化思想协同实现。

核心思路是:

  • 维护一个当前累计时间基准(last_t);
  • 使用 itertools.cycle 循环遍历间隔数组(如 [1.0, 1.5]),实现间隔自动轮转;
  • 遍历 DataFrame 的 Timestamp 列,对每个时间戳 t,判断是否 t >= last_t + 当前间隔;
  • 若满足,则记录该行索引,更新 last_t = t,并切换至下一个间隔值。

以下是完整、可复用的实现代码:

import pandas as pd
from itertools import cycle

# 示例数据构建(与原始问题一致)
df = pd.DataFrame({
    "Timestamp": [0.00, 0.94, 1.94, 3.00, 4.00, 5.94, 8.00, 9.00, 10.00],
    "MeasureA": [26.46, 26.52, 30.01, 30.19, 30.07, 30.02, 30.22, 30.00, 30.00],
    "MeasureB": [63.60, 78.87, 82.04, 82.00, 81.43, 82.46, 82.48, 82.21, 82.34],
    "MeasureC": [3.90, 1.58, 1.13, 1.17, 1.13, 1.05, 0.98, 1.13, 1.12],
    "MeasureD": [0.67, 0.42, 0.46, 0.36, 0.42, 0.34, 0.35, 0.33, 0.34]
})

# 定义非均匀时间间隔(将按顺序循环使用)
intervals = [1.0, 1.5]

# 初始化:时间基准设为负无穷,确保首行必被选中
comparing = cycle(intervals)
out_indices = []
last_t = float("-inf")
current_interval = next(comparing)

# 主循环:逐行扫描,动态决策
for idx, t in zip(df.index, df["Timestamp"]):
    if t >= last_t + current_interval:
        out_indices.append(idx)
        last_t = t
        current_interval = next(comparing)  # 切换至下一间隔

# 构建结果 DataFrame
result_df = df.loc[out_indices].reset_index(drop=True)
print(result_df)

输出结果(与预期完全一致):

   Timestamp  MeasureA  MeasureB  MeasureC  MeasureD
0       0.00     26.46     63.60      3.90      0.67
1       1.94     30.01     82.04      1.13      0.46
2       4.00     30.07     81.43      1.13      0.42
3       5.94     30.02     82.46      1.05      0.34
4       8.00     30.22     82.48      0.98      0.35
5       9.00     30.00     82.21      1.13      0.33

⚠️ 关键注意事项

  • 时间列必须有序:该算法假设 Timestamp 单调递增(或至少非递减)。若存在乱序,需预先执行 df = df.sort_values("Timestamp").reset_index(drop=True);
  • 首行恒被保留:因 last_t = -inf,首个 t 必满足 t >= -inf + interval,符合“从第一行启动”的业务逻辑;
  • 间隔轮转机制:cycle([1.0, 1.5]) 会无限生成 1.0 → 1.5 → 1.0 → 1.5 → ...,无需手动重置;
  • 性能提示:对超大数据集(百万级行),此 Python 循环仍高效(因仅单次遍历且无嵌套);若追求极致性能,可考虑用 numba 加速,但通常非必需。

该方法灵活、清晰、无外部依赖,是 Pandas 生态中处理“状态依赖型时序筛选”的典型范式——它不依赖向量化语法的表面简洁,而以明确的状态管理换取逻辑的鲁棒性与可扩展性。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注