您的位置:首页 >Pandas怎么看数据信息_info()查看类型/非空值与describe()统计量
发布于2026-05-02 阅读(0)
扫一扫,手机访问

先明确一个核心概念:info() 和 describe() 这对组合拳,一个管“元数据”,一个管“统计量”。很多人上手就用,却忽略了它们各自的局限和配合的妙处。简单来说,info() 告诉你数据“是什么结构”,而 describe() 告诉你数据“大概长什么样”。两者缺一不可,否则很容易掉进数据清洗的陷阱里。
首先得摆正心态:info() 可不是让你看数据具体内容的。它的核心任务是探查元数据——也就是数据的“户口本”,上面登记着列名、每列的数据类型(dtype)、非空值数量以及内存占用情况。新手常犯的错误,就是跑完 info() 就觉得万事大吉,殊不知它既不显示数值分布,也对隐藏的异常值无能为力。
info() 默认会折叠显示。这时候加上 verbose=True 参数,就能强制展开所有列信息,一览无余。memory_usage(内存使用)和 non-null(非空计数)上。前者能帮你快速定位内存大户,考虑是否将 int64 降级为 int32 或使用 category 类型来节省空间;后者则是发现数据缺失的第一道关卡。non-null 是按列统计的。某列显示有999个非空值,绝不意味着这999行数据是完整的,其他列可能照样缺失。object 类型要保持高度警惕。它像个“杂物间”,里面装的可能是纯文本字符串,也可能是数字、空字符串、None 的混合体。info() 不会报错,但如果你贸然用 astype(int) 去转换,程序崩溃就在所难免。如果说 info() 容易让人误解,那 describe() 的“默认行为”则可能直接导致信息遗漏。它默认只对数值型(number)列进行计算,那些 object(对象)或 category(类别)列,在结果里直接就消失了。你想看字符串列有哪些唯一值、哪个值出现最多?不主动设置参数,这步等于白做。
include='all' 参数。这样,输出结果才会同时包含数值列的统计量(如计数、均值)和字符串列的概况(如唯一值数量、最高频值及其出现次数)。describe() 输出的 count 是发现脏数据的早期信号。如果某个数值列的 count 远小于数据总行数,说明这列存在大量 NaN(空值)。std)会显示为 0.0,这很正常。但如果 std 显示为 NaN,通常是因为该列只有一个值,标准差无定义。反过来,如果你预期数据有波动却看到 std=0.0,就得检查是不是所有数字都被误存为字符串了(比如 “1”, “2”, “3”)。datetime64)默认也不在统计范围内。需要单独用 df['col'].describe(datetime_is_numeric=True),或者直接调用 min()、max() 来查看时间范围。数据分析里最让人头疼的,往往是那些表面正常、内里却藏污纳垢的情况。一个典型陷阱是:info() 显示某列有1000个非空值(non-null),类型是 object;但用 describe(include='all') 一看,却发现唯一值数(unique)是1,且最高频值(top)是个空格或“NULL”字符串。这说明,这列数据很可能被各种空白字符、不可见字符或表示空值的字符串填满了,而不是真正的 NaN。
info() 锁定那些可疑的 object 类型列,再用 describe(include='all') 查看它们的 unique 和 top 值。如果唯一值数量异常少,且最高频值是某种空值形式,脏数据的嫌疑就很大。df['col'].str.strip().replace('', pd.NA).isna().sum()。这行代码先去掉字符串两端的空格,再把空字符串替换成Pandas认可的缺失值 pd.NA,最后统计缺失数量。这比直接调用 isna() 要准确得多。describe() 对字符串列的 count,统计的是“非空字符串”的数量。一个空字符串('')会被计入有效值,而 info() 里的 non-null 计数也同样把它当作有效数据。这种不一致性,正是需要手动清洗的信号。面对百万行乃至千万行级别的大数据集,无脑直接调用 info() 和 describe() 可能带来性能问题。虽然这两个函数本身计算不慢,但它们需要完整扫描数据。特别是 describe(include='all'),对于字符串列,它需要遍历每一行来计算唯一值,数据量一大就很容易卡住。
df.sample(10000).info(),快速了解大致的结构、类型和缺失情况。确认抽样数据没有明显异常后,再对全量数据运行详细分析。describe() 太慢,可以直接使用 df['col'].nunique(dropna=False)。这个方法更快,而且你可以通过 dropna 参数灵活控制是否将缺失值计入唯一值。df.info? 或 df.describe? 查看函数的详细签名和参数说明。多留意像 memory_usage(控制内存显示)、percentiles(控制百分位数输出)这类容易被忽略但很有用的参数。说到底,真正的麻烦往往不是函数本身有多难用。而是当 info() 告诉你“数据非空”,describe() 也显示“有值”,可当你兴致勃勃地想去计算均值时,却弹出一个 TypeError: unsupported operand type(s) for +: 'str' and 'int' 的错误。这时候,最好的办法就是回到原点,重新审视 dtype,并亲自查看最原始的那几行数据到底长什么样。数据清洗,永远始于对元数据的正确理解。
上一篇:Python怎么把PyTorch模型导出为ONNX格式_torch.onnx.export与dynamic_axes设定
下一篇:Java运行出现java: Compilation failed: internal java compiler error错误
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9