Python怎么读无后缀文件_按字节读取并检测文件头Magic Number识别

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

Python怎么读无后缀文件_按字节读取并检测文件头Magic Number识别

用 `open()` 二进制模式读取无后缀文件

遇到没有后缀的文件，靠扩展名判断类型这条路就走不通了。这时候，最稳妥的办法就是直接读取文件内容本身。核心操作是使用 open(path, 'rb') 以二进制模式打开文件，跳过所有解码步骤，直接获取原始的字节流——这是后续一切识别工作的基础。

一个常见的坑是，习惯性地用 open(..., 'r') 文本模式去读，结果一旦文件里包含非UTF-8编码的字节，程序立马就会抛出 UnicodeDecodeError。即便不指定编码，让Python使用系统默认的locale解码，其行为也是不可预测的。

关键一步：必须使用 open(path, 'rb')，而不是 'r'。
读多少合适？通常读取文件的前16到32个字节就足够了，这个范围足以覆盖绝大多数常见格式的Magic Number（例如PNG格式固定在前8个字节，JPEG则只需要看前3个字节 b'\xff\xd8\xff'）。
注意方法：在二进制模式下，别用 readline()，因为它依赖换行符，在纯字节流里没有意义。应该使用 read(n) 来精确控制读取的字节数。

常见 Magic Number 对应关系与 Python 判断逻辑

Magic Number可不是凭感觉“猜”出来的，它是各种文件格式规范中明确定义的“身份证”。像PNG、JPEG、PDF、ZIP这些标准格式，其文件开头的若干字节都有固定的值。在Python里实现判断，其实就是用 if 条件链或者字典进行精确匹配。

这里有几个细节需要注意：有些格式的Magic Number存在多个变体（比如ZIP文件，开头可能是 b'PK\x03\x04'，也可能是 b'PK\x05\x06'）；还有些格式的Magic Number并不在文件的绝对开头（比如某些tar归档文件，需要跳过512字节的文件头才能定位到真正的数据块）。

立即学习“Python免费学习笔记（深入）”；

PNG：data.startswith(b'\x89PNG\r\n\x1a\n')
JPEG：data.startswith(b'\xff\xd8\xff')
PDF：data.startswith(b'%PDF-')（注意，虽然是ASCII文本，但在 rb 模式下依然可以直接进行字节比对）
ZIP/EPUB：data.startswith(b'PK\x03\x04') or data.startswith(b'PK\x05\x06') or data.startswith(b'PK\x07\x08')
ELF（Linux可执行文件）：data.startswith(b'\x7fELF')

用 `filetype` 库省事但要注意边界

手动比对Magic Number虽然直接，但维护起来比较麻烦，尤其是需要支持多种格式时。这时候，第三方库 filetype 就能派上用场。它内部预置了上百种文件格式的Magic规则，调用起来非常简单：

import filetype
kind = filetype.guess('/path/to/file')
if kind is not None:
    print(kind.mime, kind.extension)

不过，它并非万能。首先，它不支持自定义Magic规则；其次，对于极小的文件（可能返回None）；再者，某些嵌套格式（例如.docx文件本质上是一个ZIP压缩包，但 filetype 会优先将其识别为 application/vnd.openxmlformats-officedocument.wordprocessingml.document）返回的是高层语义类型，而非底层的容器类型。

适用场景：适合快速验证、脚本批量探查文件类型。
安全提醒：在安全敏感的场景中（例如用户上传文件时的类型校验），切勿只依赖它——攻击者完全可以构造一个头部合法但实际内容恶意的文件。
潜在局限：该库默认只读取文件的前262字节。如果某种格式的Magic Number位于更靠后的位置（比如某些音频格式），就可能导致漏判。

检测失败时该往哪查

如果按照Magic Number规则匹配不到任何已知格式，先别急着怀疑自己的代码。大概率是文件本身存在问题，或者你遇到的格式不在常规列表之内。

这时候，需要回到最原始的状态：直接查看文件的字节内容。在Linux或macOS系统下，可以使用 xxd -l 32 /path/to/file 命令。在Python里，则可以用 data[:32].hex() 或者 data[:32].hex(' ') 来以十六进制形式观察前32个字节。

文件是否为空？检查一下 len(data) == 0 的情况，这需要单独处理。
是否被加密或混淆？有些打包工具会在真实的Magic Number前面插入一段加载器（loader）字节。
是否是自定义/私有格式？这就需要查找相关文档，或者通过分析样本文件来反推其Magic Number的位置和长度。
是否是文本文件但没后缀？比如JSON、XML、YAML这类文件，它们没有传统的二进制Magic Number，需要依靠内容特征（如开头是否有 {、、---）进行启发式判断。这已经超出了简单的字节头检测范畴。


说到底，真正的难点从来不是“怎么把字节读出来”，而是“读出来之后，你能认出几个”。Magic Number对照表是死的，但文件是活的。遇到疑难杂症时，多看一眼 xxd 的输出，往往比死记硬背规则更有用。


		
		  本文转载于：https://www.php.cn/faq/2311242.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。 
		
        
                            上一篇：Python怎样把分类型字符串映射为数值_运用map函数配合字典进行编码转换
                        下一篇：如何在 Laravel 中正确将数组数据从控制器传递到 Blade 视图
                      
        
        
          
           产品推荐
         
          
                              
                  
                    
                      
                      
                                                  售后无忧
                        立即购买>
                      
                    
                    
                      
                       DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】
                       
                                                       ￥150.00
                                                    office旗舰店
                       
                      
                    
                  
                
                              
                  
                    
                      
                      
                                                  售后无忧
                        立即购买>
                      
                    
                    
                      
                       DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】
                       
                                                       ￥198.00
                                                    office旗舰店
                       
                      
                    
                  
                
                              
                  
                    
                      
                      
                                                  售后无忧
                        立即购买>
                      
                    
                    
                      
                       DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】
                       
                                                       ￥189.00
                                                    office旗舰店
                       
                      
                    
                  
                
                              
                  
                    
                      
                      
                                                  售后无忧
                        立即购买>
                      
                    
                    
                      
                       CorelDRAW X8 简体中文【标准版 + Win】
                       
                                                       ￥1788.00
                                                    office旗舰店


      
                         
                 
                     
                   正版软件
                 
                 
                   Ubuntu Node.js日志中的安全问题如何防范
                   Ubuntu 上 Node.js 日志安全的防范要点 日志，作为应用运行的“黑匣子”，是排查问题、审计追踪的宝贵资料。但若处理不当，它也可能成为泄露敏感信息、暴露系统脆弱点的后门。尤其在 Ubuntu 这类广泛使用的服务器环境中，为 Node.js 应用构建一套安全的日志管理体系，绝非可有可无，而是
                   
                     
                     4分钟前
                                              0
                   
                 
               
                         
                 
                     
                   正版软件
                 
                 
                   Ubuntu JS日志与系统安全有关吗
                   Ubuntu中Ja vaScript日志与系统安全的关系 在Ubuntu系统中，当我们谈论“JS日志”时，通常指向两个不同的源头：一是运行在用户浏览器中的前端Ja vaScript日志，二是运行在服务器端的Node.js等后端应用日志。这两类日志与系统安全的关系，远比想象中更紧密。总体来看，它们扮演
                   
                     
                     4分钟前
                                              0
                   
                 
               
                         
                 
                     
                   正版软件
                 
                 
                   nohup命令如何确保进程在网络断开后继续运行
                   让进程在后台“风雨无阻”：nohup命令详解 在服务器管理或长时间运行任务的场景中，最怕什么？恐怕就是终端窗口意外关闭，或者网络连接突然中断，导致正在运行的关键进程被一并终止。这种前功尽弃的感觉，确实令人头疼。 好在，Linux系统提供了一个非常实用的工具——nohup命令。这个名字是“no han
                   
                     
                     4分钟前
                                              0
                   
                 
               
                         
                 
                     
                   正版软件
                 
                 
                   nohup命令如何与其他守护进程协同工作
                   让程序在后台稳定运行：nohup与守护进程的协同指南 你是否遇到过这种情况：在终端启动了一个需要长时间运行的任务，结果因为网络波动或不小心关闭了终端窗口，导致进程意外中断，所有努力前功尽弃？这确实令人头疼。好在，Linux系统提供了强大的工具来应对这一挑战，其中nohup命令便是确保程序“风雨无阻”
                   
                     
                     5分钟前
                                              0
                   
                 
               
                         
                 
                     
                   正版软件
                 
                 
                   C++实现简单的享元模式 _ 内部状态共享与工厂管理【源码】
                   享元模式的核心：分离内部状态与外部状态 享元模式的核心精髓，其实可以归结为一句话：把能共享的抽出来，不能共享的传进来。 这听起来简单，但实践中却是个容易踩坑的地方。关键在于严格区分两种状态：内部状态（intrinsic state）必须是只读、不可变、与上下文无关的；而外部状态（extrinsic 
                   
                     
                     5分钟前
                                              0


    
    
    

      
        最新发布
        
                          
                
                    
                  1
                
                
                 微软公布全新开源编程语言Bosque：正则化 告别for循环
                 2326天前
                
                
              
                          
                
                    
                  2
                
                
                 微软推出最新程序语言Bosque 以Functors取代Loop循环
                 2326天前
                
                
              
                          
                
                    
                  3
                
                
                 C语言中\n是什么意思？换行转义字符详解
                 237天前
                
                
              
                          
                
                    
                  4
                
                
                 探析Spring Boot框架的优点和特色
                 553天前
                
                
              
                          
                
                    
                  5
                
                
                 深入比较PyCharm社区版和专业版的功能
                 491天前
                
                
              
                          
                
                    
                  6
                
                
                 专家观点：谷歌是否会继续支持Golang的探讨
                 467天前
                
                
              
                          
                
                    
                  7
                
                
                 Python实战教程：批量转换多种音乐格式
                 1099天前
                
                
              
                          
                
                    
                  8
                
                
                 如何在在线答题中实现试卷的自动批改和自动评分
                 927天前
                
                
              
                          
                
                    
                  9
                
                
                 解决Python安装失败的问题
                 477天前
                
                
              
                    
      
      
         
           相关推荐
         
         
                             Ubuntu Node.js日志中的性能瓶颈如何识别
                             Ubuntu Node.js日志中的安全问题如何防范
                             Ubuntu JS日志与系统安全有关吗
                             nohup命令如何确保进程在网络断开后继续运行
                             nohup命令如何与其他守护进程协同工作
                             C++实现简单的享元模式 _ 内部状态共享与工厂管理【源码】
                             nohup命令与&符号有何关系
                             dmesg中的CPU温度警告处理
                             解读dmesg中的网络连接错误
                      
      
      
         
           热门关注
         
         
                                
                     
                     
                       Xshell 6 简体中文
                       
                       ￥899.00-￥1149.00
                     
                     
                   
                                
                     
                     
                       DaVinci Resolve Studio 16 简体中文
                       
                       ￥2550.00-￥2550.00
                     
                     
                   
                                
                     
                     
                       Camtasia 2019 简体中文
                       
                       ￥689.00-￥689.00
                     
                     
                   
                                
                     
                     
                       Luminar 3 简体中文
                       
                       ￥288.00-￥288.00
                     
                     
                   
                                
                     
                     
                       Apowersoft 录屏王 简体中文
                       
                       ￥129.00-￥339.00