Pandas pd.cut 分割数据区间方法

　　发布于2026-01-23　阅读（0）

扫一扫，手机访问

使用 Pandas pd.cut 函数将数据列分割成区间

本文将详细介绍如何使用 Pandas 库中的 pd.cut 函数，将 DataFrame 中的数值列分割成自定义区间。通过指定区间的边界和标签，可以灵活地对数据进行分组和分析。同时，讨论了如何处理区间为空的情况，以及如何优化代码以避免潜在的错误。

使用 pd.cut 函数创建数值区间

Pandas 库的 pd.cut 函数是一个强大的工具，可以将连续的数值数据离散化为不同的区间。这在数据分析和可视化中非常有用，例如将年龄段划分为“青年”、“中年”、“老年”等类别。

pd.cut 函数的基本语法如下：

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

其中：

x: 要进行分割的一维数组或 Series。
bins: 区间的边界。可以是一个整数，表示将数据分割成多少个等宽的区间；也可以是一个序列，表示自定义的区间边界。
right: 一个布尔值，指示是否包含最右边的边界值。默认为 True。
labels: 区间的标签。如果指定，则标签的数量必须与区间的数量相同。
retbins: 一个布尔值，指示是否返回计算后的区间边界。默认为 False。

下面是一个简单的示例，演示如何使用 pd.cut 函数将 DataFrame 中的 some_value 列分割成三个区间：

import pandas as pd

df = pd.DataFrame(
    {"some_value":[1, 44746, 27637, 18236, 1000, 15000,34000]}
)

df["cutoffs"] = pd.cut(
    df.some_value,
    bins=[0, 15000, 30000, 45000],
    right=False,
    labels=["x < 15000", "x >= 15000 and x < 30000", "x >= 30000 and x < 45000"],
)

print(df)

这段代码首先创建了一个包含 some_value 列的 DataFrame。然后，使用 pd.cut 函数将 some_value 列分割成三个区间，边界分别为 0, 15000, 30000 和 45000。right=False 表示区间不包含右边界值。labels 参数指定了每个区间的标签。最后，将分割后的结果赋值给 DataFrame 的 cutoffs 列。

运行结果如下：

   some_value                   cutoffs
0           1                 x < 15000
1       44746  x >= 30000 and x < 45000
2       27637  x >= 15000 and x < 30000
3       18236  x >= 15000 and x < 30000
4        1000                 x < 15000
5       15000  x >= 15000 and x < 30000
6       34000  x >= 30000 and x < 45000

处理空区间的情况

在实际应用中，可能会遇到某个区间为空的情况。例如，如果 DataFrame 中的所有 some_value 都小于 15000，那么 "x >= 15000 and x < 30000" 和 "x >= 30000 and x < 45000" 这两个区间都将为空。

如果在后续的代码中尝试访问空区间的最大值或最小值，将会导致错误。为了避免这种情况，可以使用 try-except 语句来捕获异常，或者使用 fillna 函数来填充空值。

以下是一个使用 fillna 函数处理空区间的示例：

import pandas as pd
import numpy as np

df = pd.DataFrame(
    {"some_value":[1, 1000, 1000, 1000, 1000, 1000,1000]}
)

df["cutoffs"] = pd.cut(
    df.some_value,
    bins=[0, 15000, 30000, 45000],
    right=False,
    labels=["x < 15000", "x >= 15000 and x < 30000", "x >= 30000 and x < 45000"],
)

# 使用 fillna 函数填充空值
df["cutoffs"] = df["cutoffs"].fillna("x < 15000")

print(df)

在这个示例中，如果 cutoffs 列中存在空值（NaN），fillna("x < 15000") 将会将这些空值替换为 "x < 15000"。这样可以避免后续代码因为空区间而出现错误。

总结

pd.cut 函数是 Pandas 库中一个非常有用的工具，可以将数值数据分割成自定义区间。通过灵活地指定区间的边界和标签，可以方便地对数据进行分组和分析。在实际应用中，需要注意处理空区间的情况，以避免潜在的错误。通过使用 try-except 语句或 fillna 函数，可以有效地解决这个问题。希望本文能够帮助你更好地理解和使用 pd.cut 函数。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：国航值机办理步骤详解

下一篇：芒果TV会员免费领取攻略

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

VS Code配置Clang-Tidy和Clang-Format提升C++代码质量

首先安装Clang工具集和C/C++ExtensionPack，然后在项目根目录创建.clang-tidy和.clang-format配置文件，接着在settings.json中启用Clang-Tidy并设置格式化选项，最后通过保存文件验证自动格式化和静态分析效果，确保团队统一代码风格。

4小时前 19:30 C++ 静态代码分析 0
正版软件

数据库查询转Go Map切片方法

本文介绍了如何将数据库查询结果转换为Go语言中的[]map[string]interface{}类型，以便于处理动态查询结果。虽然使用interface{}可能导致类型断言的需要，但对于处理未知结构的查询结果，它提供了一种灵活的解决方案。本文将展示如何使用标准库和第三方库sqlx来实现这一目标，并讨论使用结构体的优势。

5小时前 19:15 0
正版软件

高效计算按类别与滑动日期窗口分组的条件均值（或和）

本文介绍如何在大型Pandas数据集中（如50万行）高效计算每个样本在其所属类别内、且日期落在±14天滑动窗口内的X-Value之和，避免低效的逐行遍历，推荐使用基于时间索引的groupby().rolling()方案。

5小时前 19:00 0
正版软件

深入理解 Java 中 Period.between 的日期计算逻辑与边界行为

Java的Period.between方法在计算LocalDate间隔时采用“逐月递增+自动截断”策略，导致相同月份内不同起始日（如1月28日vs1月31日）可能得出完全相同的Period结果，这是其设计使然而非Bug。

5小时前 18:45 0
正版软件

PHP如何用Predis连接Redis实战教程

Predis连接Redis失败主因是Client构造参数错误：默认不支持redis://URL，须用数组配置或显式启用；DNS解析、超时、序列化方式及连接复用不当亦常见。

5小时前 18:30 0

Pandas pd.cut 分割数据区间方法

使用 pd.cut 函数创建数值区间

处理空区间的情况

总结

产品推荐

最新发布

相关推荐

热门关注