Pandas怎么看数据信息_info()查看类型/非空值与describe()统计量

　　发布于2026-05-02　阅读（0）

扫一扫，手机访问

Pandas怎么看数据信息：info()查看类型/非空值与describe()统计量

先明确一个核心概念：info() 和 describe() 这对组合拳，一个管“元数据”，一个管“统计量”。很多人上手就用，却忽略了它们各自的局限和配合的妙处。简单来说，info() 告诉你数据“是什么结构”，而 describe() 告诉你数据“大概长什么样”。两者缺一不可，否则很容易掉进数据清洗的陷阱里。

pd.DataFrame.info() 看什么、怎么看、为什么常被误读

首先得摆正心态：info() 可不是让你看数据具体内容的。它的核心任务是探查元数据——也就是数据的“户口本”，上面登记着列名、每列的数据类型（dtype）、非空值数量以及内存占用情况。新手常犯的错误，就是跑完 info() 就觉得万事大吉，殊不知它既不显示数值分布，也对隐藏的异常值无能为力。

当数据列特别多时，info() 默认会折叠显示。这时候加上 verbose=True 参数，就能强制展开所有列信息，一览无余。
关注点要放在 memory_usage（内存使用）和 non-null（非空计数）上。前者能帮你快速定位内存大户，考虑是否将 int64 降级为 int32 或使用 category 类型来节省空间；后者则是发现数据缺失的第一道关卡。
这里有个关键细节：non-null 是按列统计的。某列显示有999个非空值，绝不意味着这999行数据是完整的，其他列可能照样缺失。
对 object 类型要保持高度警惕。它像个“杂物间”，里面装的可能是纯文本字符串，也可能是数字、空字符串、None 的混合体。info() 不会报错，但如果你贸然用 astype(int) 去转换，程序崩溃就在所难免。

pd.DataFrame.describe() 默认只算数值列，漏掉关键信息

如果说 info() 容易让人误解，那 describe() 的“默认行为”则可能直接导致信息遗漏。它默认只对数值型（number）列进行计算，那些 object（对象）或 category（类别）列，在结果里直接就消失了。你想看字符串列有哪些唯一值、哪个值出现最多？不主动设置参数，这步等于白做。

秘诀就是加上 include='all' 参数。这样，输出结果才会同时包含数值列的统计量（如计数、均值）和字符串列的概况（如唯一值数量、最高频值及其出现次数）。
describe() 输出的 count 是发现脏数据的早期信号。如果某个数值列的 count 远小于数据总行数，说明这列存在大量 NaN（空值）。
注意一个特殊现象：如果某列所有值都相同，其标准差（std）会显示为 0.0，这很正常。但如果 std 显示为 NaN，通常是因为该列只有一个值，标准差无定义。反过来，如果你预期数据有波动却看到 std=0.0，就得检查是不是所有数字都被误存为字符串了（比如 “1”, “2”, “3”）。
时间序列列（datetime64）默认也不在统计范围内。需要单独用 df['col'].describe(datetime_is_numeric=True)，或者直接调用 min()、max() 来查看时间范围。

info() 和 describe() 配合才能发现类型陷阱

数据分析里最让人头疼的，往往是那些表面正常、内里却藏污纳垢的情况。一个典型陷阱是：info() 显示某列有1000个非空值（non-null），类型是 object；但用 describe(include='all') 一看，却发现唯一值数（unique）是1，且最高频值（top）是个空格或“NULL”字符串。这说明，这列数据很可能被各种空白字符、不可见字符或表示空值的字符串填满了，而不是真正的 NaN。

标准排查流程是：先用 info() 锁定那些可疑的 object 类型列，再用 describe(include='all') 查看它们的 unique 和 top 值。如果唯一值数量异常少，且最高频值是某种空值形式，脏数据的嫌疑就很大。
验证方法可以这样：df['col'].str.strip().replace('', pd.NA).isna().sum()。这行代码先去掉字符串两端的空格，再把空字符串替换成Pandas认可的缺失值 pd.NA，最后统计缺失数量。这比直接调用 isna() 要准确得多。
这里有个重要区别：describe() 对字符串列的 count，统计的是“非空字符串”的数量。一个空字符串（''）会被计入有效值，而 info() 里的 non-null 计数也同样把它当作有效数据。这种不一致性，正是需要手动清洗的信号。

大表别无脑 info()/describe()，先 sample 再查

面对百万行乃至千万行级别的大数据集，无脑直接调用 info() 和 describe() 可能带来性能问题。虽然这两个函数本身计算不慢，但它们需要完整扫描数据。特别是 describe(include='all')，对于字符串列，它需要遍历每一行来计算唯一值，数据量一大就很容易卡住。

一个高效的策略是：先对数据做一个抽样，比如 df.sample(10000).info()，快速了解大致的结构、类型和缺失情况。确认抽样数据没有明显异常后，再对全量数据运行详细分析。
对于字符串列的唯一值统计，如果担心 describe() 太慢，可以直接使用 df['col'].nunique(dropna=False)。这个方法更快，而且你可以通过 dropna 参数灵活控制是否将缺失值计入唯一值。
在Jupyter等交互环境中，随时可以通过 df.info? 或 df.describe? 查看函数的详细签名和参数说明。多留意像 memory_usage（控制内存显示）、percentiles（控制百分位数输出）这类容易被忽略但很有用的参数。

说到底，真正的麻烦往往不是函数本身有多难用。而是当 info() 告诉你“数据非空”，describe() 也显示“有值”，可当你兴致勃勃地想去计算均值时，却弹出一个 TypeError: unsupported operand type(s) for +: 'str' and 'int' 的错误。这时候，最好的办法就是回到原点，重新审视 dtype，并亲自查看最原始的那几行数据到底长什么样。数据清洗，永远始于对元数据的正确理解。

本文转载于：https://www.php.cn/faq/2345859.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Python怎么把PyTorch模型导出为ONNX格式_torch.onnx.export与dynamic_axes设定

下一篇：Java运行出现java: Compilation failed: internal java compiler error错误

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

PHP配置文件中upload_max_filesize怎么设置

在PHP中调整文件上传大小限制：一步步详解处理大文件上传时，PHP默认的配置往往不够用。别担心，核心的调整开关就在upload_max_filesize这个参数上。下面就来拆解一下，如何精准地找到并修改它。第一步：定位你的php.ini文件这事儿的关键在于找到正确的配置文件。php.ini的位

4小时前 22:59 0
正版软件

如何调整PHP执行时间限制

调整PHP执行时间限制的几种方法在处理耗时较长的任务时，PHP脚本可能会因为默认的执行时间限制而意外终止。别担心，这个问题有几种成熟的解决方案。下面就来详细说说如何根据不同的场景和权限，灵活地调整这个限制。 1. 修改php.ini文件（全局生效）最根本的方法是从源头入手，直接修改PHP的配置文

4小时前 22:59 0
正版软件

Linux下PHP内存限制怎么设置

在Linux系统中调整PHP内存限制当PHP应用需要处理更复杂的任务时，默认的内存配额可能就显得捉襟见肘了。别担心，通过修改一个核心配置文件，就能轻松解决这个问题。整个过程清晰直接，我们一步步来看。第一步：定位配置文件关键文件是 php.ini。它的位置取决于PHP的运行方式：如果PHP是通

4小时前 22:59 0
正版软件

如何在Linux上配置Python数据库连接

在Linux上配置Python数据库连接在Linux环境下为Python配置数据库连接，是许多开发项目绕不开的基础环节。这个过程其实并不复杂，关键在于理清步骤，按部就班。通常，它会涉及以下几个核心环节。 1. 安装数据库第一步，自然是在你的Linux系统上安装目标数据库。不同的数据库，安装命令也

4小时前 22:58 0
正版软件

Linux Python如何进行安全配置

Linux Python 安全配置清单在Linux环境下部署Python应用，安全是地基，不容忽视。这份清单旨在提供一套从环境到代码、从网络到进程的纵深防御思路，帮你把安全配置做得更扎实。一运行环境与权限最小化使用虚拟环境隔离依赖：首推Python内置的venv模块。它能有效隔离项目依赖，避

4小时前 22:58 0