您的位置:首页 >Python怎么读无后缀文件_按字节读取并检测文件头Magic Number识别
发布于2026-05-03 阅读(0)
扫一扫,手机访问

open() 二进制模式读取无后缀文件遇到没有后缀的文件,靠扩展名判断类型这条路就走不通了。这时候,最稳妥的办法就是直接读取文件内容本身。核心操作是使用 open(path, 'rb') 以二进制模式打开文件,跳过所有解码步骤,直接获取原始的字节流——这是后续一切识别工作的基础。
一个常见的坑是,习惯性地用 open(..., 'r') 文本模式去读,结果一旦文件里包含非UTF-8编码的字节,程序立马就会抛出 UnicodeDecodeError。即便不指定编码,让Python使用系统默认的locale解码,其行为也是不可预测的。
open(path, 'rb'),而不是 'r'。b'\xff\xd8\xff')。readline(),因为它依赖换行符,在纯字节流里没有意义。应该使用 read(n) 来精确控制读取的字节数。Magic Number可不是凭感觉“猜”出来的,它是各种文件格式规范中明确定义的“身份证”。像PNG、JPEG、PDF、ZIP这些标准格式,其文件开头的若干字节都有固定的值。在Python里实现判断,其实就是用 if 条件链或者字典进行精确匹配。
这里有几个细节需要注意:有些格式的Magic Number存在多个变体(比如ZIP文件,开头可能是 b'PK\x03\x04',也可能是 b'PK\x05\x06');还有些格式的Magic Number并不在文件的绝对开头(比如某些tar归档文件,需要跳过512字节的文件头才能定位到真正的数据块)。
立即学习“Python免费学习笔记(深入)”;
data.startswith(b'\x89PNG\r\n\x1a\n')data.startswith(b'\xff\xd8\xff')data.startswith(b'%PDF-')(注意,虽然是ASCII文本,但在 rb 模式下依然可以直接进行字节比对)data.startswith(b'PK\x03\x04') or data.startswith(b'PK\x05\x06') or data.startswith(b'PK\x07\x08')data.startswith(b'\x7fELF')filetype 库省事但要注意边界手动比对Magic Number虽然直接,但维护起来比较麻烦,尤其是需要支持多种格式时。这时候,第三方库 filetype 就能派上用场。它内部预置了上百种文件格式的Magic规则,调用起来非常简单:
import filetype
kind = filetype.guess('/path/to/file')
if kind is not None:
print(kind.mime, kind.extension)
不过,它并非万能。首先,它不支持自定义Magic规则;其次,对于极小的文件(可能返回None);再者,某些嵌套格式(例如.docx文件本质上是一个ZIP压缩包,但 filetype 会优先将其识别为 application/vnd.openxmlformats-officedocument.wordprocessingml.document)返回的是高层语义类型,而非底层的容器类型。
如果按照Magic Number规则匹配不到任何已知格式,先别急着怀疑自己的代码。大概率是文件本身存在问题,或者你遇到的格式不在常规列表之内。
这时候,需要回到最原始的状态:直接查看文件的字节内容。在Linux或macOS系统下,可以使用 xxd -l 32 /path/to/file 命令。在Python里,则可以用 data[:32].hex() 或者 data[:32].hex(' ') 来以十六进制形式观察前32个字节。
len(data) == 0 的情况,这需要单独处理。{、、---)进行启发式判断。这已经超出了简单的字节头检测范畴。说到底,真正的难点从来不是“怎么把字节读出来”,而是“读出来之后,你能认出几个”。Magic Number对照表是死的,但文件是活的。遇到疑难杂症时,多看一眼 xxd 的输出,往往比死记硬背规则更有用。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9