您的位置:首页 >如何递归解压嵌套的 GZIP 文件(.gz 套 .gz)
发布于2026-04-29 阅读(0)
扫一扫,手机访问

本文介绍使用 python 递归解压多层嵌套的 .gz 文件(即压缩包内含 .gz 文件,其内部又可能含 .gz),最终提取出原始 xml 等目标数据,并支持自定义输出路径。
处理网络路由数据、日志归档或是科研数据集时,你很可能遇到过一种让人头疼的“俄罗斯套娃”式压缩文件:一个顶层的 .gz 文件解压出来,里面躺着的居然还是 .gz 文件,一层套一层,非得剥开好几层“外壳”,才能见到真正的 XML 或文本数据。Python 自带的 gzip 模块虽然好用,但面对这种嵌套结构就束手无策了。不过别担心,通过“递归解压”配合“文件类型识别”,完全可以实现全自动的一键展开。
下面这个函数,就是一个兼顾健壮性与扩展性的解决方案:
import gzip
import shutil
import os
from pathlib import Path
def extract_gz_recursively(
gz_path: str,
output_dir: str = ".",
keep_intermediates: bool = False) -> None:
"""
递归解压嵌套 .gz 文件,直至获得非 .gz 文件(如 XML、TXT 等)。
Args:
gz_path: 输入 .gz 文件路径
output_dir: 最终解压内容存放目录(默认为当前目录)
keep_intermediates: 是否保留中间解压出的 .gz 文件(默认 False)
"""
gz_path = Path(gz_path)
output_dir = Path(output_dir)
output_dir.mkdir(exist_ok=True)
# 构造解压后的文件名(移除最外层 .gz)
stem = gz_path.stem if gz_path.suffix == ".gz" else gz_path.name
extracted_path = output_dir / stem
# 解压当前 .gz 文件
try:
with gzip.open(gz_path, "rb") as f_in:
with open(extracted_path, "wb") as f_out:
shutil.copyfileobj(f_in, f_out)
print(f"✓ Extracted: {gz_path.name} → {extracted_path.name}")
except Exception as e:
print(f"✗ Failed to extract {gz_path.name}: {e}")
return
# 若解压结果仍是 .gz 文件,则递归处理
if extracted_path.suffix == ".gz" and extracted_path.is_file():
extract_gz_recursively(
extracted_path,
output_dir=output_dir,
keep_intermediates=keep_intermediates
)
# 可选:清理中间 .gz(仅当不保留时)
if not keep_intermediates:
extracted_path.unlink(missing_ok=True)
else:
# 已到达最终数据(如 XML),可选重命名或分类
if extracted_path.suffix.lower() in (".xml", ".txt", ".csv"):
print(f"→ Final data found: {extracted_path.name}")
# ✅ 使用示例:批量处理指定目录下所有 .gz 文件
if __name__ == "__main__":
INPUT_DIR = "./archives" # 存放顶层 .gz 文件的目录
OUTPUT_DIR = "./extracted" # 所有最终 XML 数据将落在此目录
for gz_file in Path(INPUT_DIR).glob("*.gz"):
extract_gz_recursively(gz_file, output_dir=OUTPUT_DIR)
要让这个流程跑得既稳当又高效,有几个细节值得琢磨:
运行起来之后,无论原先的结构有多复杂,比如 maingzfile/subgzfile1/xmldata1 这样的多层嵌套,所有目标 XML 文件都会被自动提取出来,并整齐地归集到你指定的输出目录(如 ./extracted/)。整个过程无需人工干预,真正实现了“一键穿透多层 GZIP”。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9