Pandas处理含None整型列方法

　　发布于2025-11-11　阅读（0）

扫一扫，手机访问

Pandas中处理含None值的整型列：保持整数类型与缺失值表示

当将包含整数和`None`值的数组加载到Pandas DataFrame列时，由于`None`被转换为浮点类型的`NaN`，整数值通常会自动变为浮点数。本教程将深入探讨这一常见问题，并提供使用Pandas 1.0.0及更高版本引入的`Int64Dtype`和`pd.NA`来解决此问题的专业方法，确保在保留整数类型的同时，能够清晰地表示缺失值。

理解问题：为何整数会变为浮点数？

在Pandas中，当一个Series或DataFrame列包含不同类型的数据时，Pandas会尝试寻找一个能够容纳所有值的通用数据类型。对于包含整数和None（或NaN）的列，默认情况下，Pandas会将None视为缺失值，并将其内部表示为浮点类型的NaN（Not a Number）。由于浮点类型可以表示整数，并且能够容纳NaN，因此整个列的数据类型会被强制转换为浮点型（例如float64），从而导致原始的整数值也带上小数点（如101变为101.0）。

考虑以下示例代码：

import pandas as pd

the_array = [None, None, None, 101, 555, 756, 924, 485]

df = pd.DataFrame(columns=['request'])
df['request'] = the_array

print(df)
print(df.dtypes)

其输出结果将显示：

   request
0      NaN
1      NaN
2      NaN
3    101.0
4    555.0
5    756.0
6    924.0
7    485.0

request    float64
dtype: object

可以看到，所有整数都变成了浮点数，且列的数据类型为float64。这在某些场景下可能不是期望的行为，特别是在需要严格保持整数类型进行后续计算或数据存储时。

解决方案：使用可空整数类型 Int64Dtype 和 pd.NA

从Pandas 1.0.0版本开始，引入了pd.NA作为一种通用的缺失值指示符，以及一系列可空（nullable）数据类型，如pd.Int64Dtype，旨在解决在存在缺失值时类型转换的问题。pd.Int64Dtype（通常简写为字符串"Int64"，注意大写I）允许一个整型列包含缺失值，而不会将其强制转换为浮点型。这些缺失值将以pd.NA的形式表示。

要实现所需的行为，即保留整数类型并用适当的缺失值表示None，可以在创建DataFrame时指定dtype参数为"Int64"：

import pandas as pd

the_array = [None, None, None, 101, 555, 756, 924, 485]

# 在创建DataFrame时指定dtype为"Int64"
df = pd.DataFrame(
    data=the_array,
    columns=["request"],
    dtype="Int64",  # 使用字符串别名 pd.Int64Dtype()
)
print(df)
print(df.dtypes)

执行上述代码，将得到以下输出：

   request
0     <NA>
1     <NA>
2     <NA>
3      101
4      555
5      756
6      924
7      485

request    Int64
dtype: object

从输出可以看出，原始的None值现在被表示为<NA>，而所有的整数值都成功地保持了其整数形式，并且列的数据类型也正确地显示为Int64。

关键概念与注意事项

pd.NA：新的缺失值表示pd.NA是Pandas中一个实验性的、通用的缺失值标量，旨在提供一个比np.nan和None更一致且类型感知的缺失值表示。它与Nullable Dtypes（如Int64Dtype、BooleanDtype、StringDtype等）协同工作。
Int64Dtype：可空整数类型 这是Pandas提供的一种扩展数据类型，它允许int64整数类型与pd.NA缺失值共存。除了Int64Dtype，Pandas还提供了Int8Dtype、Int16Dtype、Int32Dtype等，以及对应的无符号整数类型（如UInt64Dtype）。选择哪种类型取决于你的数据范围。
版本要求 此功能要求Pandas版本在1.0.0或更高。如果使用旧版本Pandas，可能需要升级或寻找其他兼容方案（例如，在加载后手动转换类型，但这可能不如直接指定dtype高效和优雅）。
与其他缺失值的区别
- None: Python原生的空值，Pandas通常将其转换为NaN。
- np.nan: NumPy的浮点型缺失值，通常用于浮点数数组。
- pd.NA: Pandas的可空数据类型的缺失值表示，它具有更好的类型感知能力，可以与整数、布尔、字符串等类型共存。
性能考量 使用Int64Dtype等可空类型可能会比传统的NumPy数组支持的固定类型（如int64或float64）占用更多内存，因为它们通常是基于Pandas内部的ExtensionArray实现。然而，它提供了更精确的类型语义和更方便的缺失值处理。

总结

通过利用Pandas 1.0.0及更高版本提供的Int64Dtype和pd.NA，开发者可以有效地解决将包含None值的数组加载到DataFrame时整数自动转换为浮点数的问题。这种方法不仅能保持数据的原始整数类型，还能以清晰且类型安全的方式表示缺失值，从而提高了数据处理的准确性和代码的可读性。在处理混合类型数据，尤其是包含缺失值的整型数据时，推荐优先考虑使用这些可空数据类型。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Win8系统重装教程详解

下一篇：谷歌浏览器Flash无法播放解决方法

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

PHP PDO 游标应用详解

PHPPDO中游标是PDOStatement隐式控制的读取机制，其行为由fetchmode、fetchorientation及驱动是否支持可滚动游标决定；仅当驱动支持且业务需非顺序遍历（如分页回溯、双向遍历、强一致性迭代）时才启用。

9分钟前 0
正版软件

CompletableFuture是什么及使用详解

CompletableFuture是Java8引入的可手动完成、支持回调与链式编排的增强型Future，具备非阻塞回调、任务编排、主动生命周期控制、明确线程策略及自然异常传播等核心特性。

19分钟前 0
正版软件

同名 DTO 跨项目安全转换方法

本文介绍在Java项目中，当两个DTO类结构完全相同但位于不同包（甚至不同模块）时，如何安全、高效地实现类型转换，重点对比Jackson反序列化与MapStruct的适用场景，并提供可落地的MapStruct泛型映射解决方案。

29分钟前 0
正版软件

Python SBOM 生成工具使用详解

cyclonedx-bom是生成Python项目SBOM的最佳轻量工具，支持pipfreeze、poetry.lock等多种依赖源，需注意虚拟环境激活和显式指定配置文件，输出符合CycloneDX1.4标准，满足供应链安全与合规分析要求。

39分钟前 0
正版软件

为什么pydoc将函数‘any’识别为包？

本文探讨了使用pydoc命令查询Python内置函数any()时，可能出现的将其错误识别为包的问题。通过分析问题原因和提供解决方案，帮助读者正确使用pydoc获取函数文档，并理解不同环境下pydoc可能出现的差异。

47分钟前 0