Python从Excel中按行提取图片的实现方法

　　发布于2026-05-20　阅读（0）

扫一扫，手机访问

在处理Excel文件时，批量导出其中的图片并按特定规则命名，是许多数据分析、物料管理和内容归档工作中的常见痛点。手动操作不仅繁琐，还极易出错。今天，我们就来分享两个“开箱即用”的Python脚本，帮你彻底解决这个问题。

这两个版本都实现了核心功能：按工作表自动创建文件夹，并根据图片所在行的A列内容来命名图片文件。同时，它们都内置了重名处理和非法字符过滤机制，确保运行稳定。二者的主要区别在于对图片格式的处理策略不同。

版本一：保持原始格式

如果你需要严格保留图片的原始属性，比如PNG的透明背景、GIF的动态效果，或者不希望因二次压缩损失画质，那么这个版本就是为你准备的。它会原封不动地保存图片的原始格式。

import openpyxl
from PIL import Image as PILImage
import io
import os


def extract_images_from_excel(excel_path, output_dir=None):
    """
    按行提取 Excel 中的图片，存储到以 Sheet 名称命名的文件夹下，
    图片命名为该行第一个字段的值（即A列），保持原始格式。
    """
    if output_dir is None:
        output_dir = os.path.dirname(os.path.abspath(excel_path))

    os.makedirs(output_dir, exist_ok=True)

    wb = openpyxl.load_workbook(excel_path)
    extracted_count = 0

    for sheet_name in wb.sheetnames:
        ws = wb[sheet_name]
        print(f"处理工作表: {sheet_name}")

        safe_sheet_name = "".join(
            c for c in sheet_name if c not in r'\/:*?"<>|'
        ).strip()
        sheet_dir = os.path.join(output_dir, safe_sheet_name)
        os.makedirs(sheet_dir, exist_ok=True)

        # 收集每行A列的值
        row_first_cell = {}
        for row in range(1, ws.max_row + 1):
            cell_value = ws.cell(row=row, column=1).value
            if cell_value is not None:
                row_first_cell[row] = str(cell_value)

        for image in ws._images:
            anchor = image.anchor
            if hasattr(anchor, '_from'):
                row_num = anchor._from.row + 1
            elif hasattr(anchor, 'row'):
                row_num = anchor.row + 1
            else:
                print(f"  ⚠️ 无法确定图片行号，跳过")
                continue

            first_cell_value = row_first_cell.get(row_num, None)
            if first_cell_value is None:
                print(f"  ⚠️ 第{row_num}行第一个字段为空，跳过")
                continue

            safe_name = "".join(
                c for c in first_cell_value if c not in r'\/:*?"<>|'
            ).strip()
            if not safe_name:
                safe_name = f"row_{row_num}"

            img_data = image._data()
            img = PILImage.open(io.BytesIO(img_data))

            # 获取原始格式
            img_format = img.format.lower() if img.format else 'png'

            filename = f"{safe_name}.{img_format}"
            filepath = os.path.join(sheet_dir, filename)

            counter = 1
            base_name = safe_name
            while os.path.exists(filepath):
                filename = f"{base_name}_{counter}.{img_format}"
                filepath = os.path.join(sheet_dir, filename)
                counter += 1

            img.sa ve(filepath)
            extracted_count += 1
            print(f"  ✅ 第{row_num}行 -> {safe_sheet_name}/{filename}")

    print(f"\n? 完成！共提取 {extracted_count} 张图片，保存至: {output_dir}")


if __name__ == '__main__':
    excel_path = 'cards.xlsx'   # 修改为你的文件
    extract_images_from_excel(excel_path, output_dir='images')

版本二：统一存储为JPG格式

对于需要统一图片格式、减小文件总体积，或者后续处理流程只接受JPG的场景，这个版本会更合适。它会将所有图片统一转换为JPG格式，并自动处理透明背景（填充为白色），你还可以自由调节输出图片的质量。

import openpyxl
from PIL import Image as PILImage
import io
import os


def extract_images_as_jpg(excel_path, output_dir=None, jpg_quality=85):
    """
    按行提取 Excel 中的图片，统一转换为 JPG 格式存储。
    参数:
        excel_path: Excel 文件路径
        output_dir: 输出根目录
        jpg_quality: JPG 压缩质量 (1-100)，默认85
    """
    if output_dir is None:
        output_dir = os.path.dirname(os.path.abspath(excel_path))

    os.makedirs(output_dir, exist_ok=True)

    wb = openpyxl.load_workbook(excel_path)
    extracted_count = 0

    for sheet_name in wb.sheetnames:
        ws = wb[sheet_name]
        print(f"处理工作表: {sheet_name}")

        safe_sheet_name = "".join(
            c for c in sheet_name if c not in r'\/:*?"<>|'
        ).strip()
        sheet_dir = os.path.join(output_dir, safe_sheet_name)
        os.makedirs(sheet_dir, exist_ok=True)

        # 收集每行A列的值
        row_first_cell = {}
        for row in range(1, ws.max_row + 1):
            cell_value = ws.cell(row=row, column=1).value
            if cell_value is not None:
                row_first_cell[row] = str(cell_value)

        for image in ws._images:
            anchor = image.anchor
            if hasattr(anchor, '_from'):
                row_num = anchor._from.row + 1
            elif hasattr(anchor, 'row'):
                row_num = anchor.row + 1
            else:
                print(f"  ⚠️ 无法确定图片行号，跳过")
                continue

            first_cell_value = row_first_cell.get(row_num, None)
            if first_cell_value is None:
                print(f"  ⚠️ 第{row_num}行第一个字段为空，跳过")
                continue

            safe_name = "".join(
                c for c in first_cell_value if c not in r'\/:*?"<>|'
            ).strip()
            if not safe_name:
                safe_name = f"row_{row_num}"

            img_data = image._data()
            img = PILImage.open(io.BytesIO(img_data))

            # ----- 转换为 JPG 的关键代码 -----
            # 若图片为 RGBA（带透明通道），需转换为 RGB（白色背景）
            if img.mode in ('RGBA', 'LA', 'P'):
                # 创建白色背景
                background = PILImage.new('RGB', img.size, (255, 255, 255))
                # 将原图粘贴到背景（使用透明通道作为掩码）
                if img.mode == 'P':
                    img = img.convert('RGBA')
                background.paste(img, mask=img.split()[-1] if img.mode == 'RGBA' else None)
                img = background
            elif img.mode != 'RGB':
                img = img.convert('RGB')
            # -----------------------------

            filename = f"{safe_name}.jpg"
            filepath = os.path.join(sheet_dir, filename)

            counter = 1
            base_name = safe_name
            while os.path.exists(filepath):
                filename = f"{base_name}_{counter}.jpg"
                filepath = os.path.join(sheet_dir, filename)
                counter += 1

            # 保存为 JPG，可指定质量
            img.sa ve(filepath, 'JPEG', quality=jpg_quality)
            extracted_count += 1
            print(f"  ✅ 第{row_num}行 -> {safe_sheet_name}/{filename} (JPG质量={jpg_quality})")

    print(f"\n? 完成！共提取 {extracted_count} 张图片，已统一为JPG格式，保存至: {output_dir}")


if __name__ == '__main__':
    excel_path = 'cards.xlsx'   # 修改为你的文件
    extract_images_as_jpg(excel_path, output_dir='images_jpg', jpg_quality=85)

如何选择：两个版本的核心区别

为了让你能快速决策，这里将两个方案的核心差异对比如下：

特性	版本一（原格式）	版本二（统一JPG）
输出扩展名	.png / .jpg / .gif 等原样保留	统一为 .jpg
透明背景处理	保留原图（PNG透明通道）	白色背景填充
压缩控制	无（原样保存）	可调节 quality 参数
适用场景	需要保留原始质量/透明效果	统一浏览、减小体积
输出文件夹	`images/`	`images_jpg/`

通用使用步骤

无论选择哪个版本，准备工作都是类似的：

1. 安装依赖

首先，确保你的Python环境已安装必要的库：

pip install openpyxl pillow

2. 准备Excel文件

确认图片是“嵌入”到单元格中的，而不是作为浮动对象链接的外部文件。
检查每个包含图片的行，其A列必须有一个非空的值，这个值将作为图片的文件名。

3. 选择版本并修改路径

将脚本末尾的 excel_path = 'cards.xlsx' 替换成你实际Excel文件的路径。你也可以根据需要修改 output_dir 参数来指定输出目录。

4. 运行脚本

python extract_images.py   # 或 extract_as_jpg.py

5. 查看结果

脚本运行后，会在你指定的输出目录下，为每个工作表创建一个同名的子文件夹，所有图片都会按A列的值命名并保存在对应的文件夹里。

需要注意的几个细节

图片定位原理：脚本依赖于openpyxl库读取图片的锚点属性来定位其所在行。如果图片横跨了多行或者位于合并单元格内，定位可能不准确。最稳妥的方式是确保每张图片完整地放置在某一行内。
命名冲突处理：如果同一个工作表内，不同行的A列值相同，脚本会自动为后续文件添加 _1、_2 这样的后缀，避免覆盖。
文件名安全：Windows系统中不允许作为文件名的字符（如 / \ : * ? " < > |）会被自动过滤掉。
关于JPG版本：如果原图是GIF动图，转换后只会保存第一帧；如果原图是CMYK色彩模式，则会自动转换为RGB模式，这是JPG格式的标准要求。

灵活的扩展建议

这两个脚本提供了很好的基础，你可以根据实际需求轻松调整：

修改命名依据的列：如果想用B列的内容来命名图片，只需在代码中找到 column=1 的地方，将其改为 column=2 即可。
批量处理多个文件：可以在脚本外层加一个循环，遍历文件夹下的所有Excel文件，依次调用提取函数。
支持其他输出格式：在版本二中，将保存图片时的 'JPEG' 参数改为 'PNG'，就可以统一输出为PNG格式，不过文件体积会比较大。
保留透明通道的统一格式：如果你希望统一输出格式但又想保留PNG的透明背景，可以基于版本二的代码，去掉转换为RGB的步骤，直接保存为PNG格式。

总结

通过以上两个Python脚本，我们解决了从Excel中批量、按规则导出图片的自动化需求。一个忠于原貌，一个统一格式，它们覆盖了绝大多数办公场景。你只需要复制代码，修改文件路径，就能将繁琐的手动操作转化为瞬间完成的自动化流程。选择适合你需求的那个版本，开始体验高效办公吧。

本文转载于：https://www.jb51.net/python/363898fqw.htm 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：SpringBoot使用@Validated校验List接口参数的正确方式

下一篇：nuitka python 模块转so 模块的过程详解

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

如何利用枚举类的 name 方法实战实现对象变量状态与字符串标签的转换

枚举的name()方法可直接返回枚举常量名，实现状态到字符串的单向转换。反向转换需使用valueOf()方法并严格处理异常，避免程序崩溃。为提升安全性，可封装工具类处理转换失败情况。name()适用于机器读取的精确标识，而toString()或自定义字段更适合人可读的友好展示。

8分钟前 0
正版软件

如何应用构造代码块实战实现在对象实例化时自动触发的变量依赖拉取

构造器是对象实例化时获取外部依赖的最可靠位置，可接收参数并控制执行顺序。应避免在静态块进行IO操作或在实例块处理异步任务。实践中，可在构造器内封装依赖获取逻辑，并妥善处理异常。为提升效率，可引入缓存、动态更新及预加载回退机制，结合环境集成与结构校验等工程化手段，使。

9分钟前 0
正版软件

如何通过序列化机制实现分布式系统中的跨进程变量传递与协议对接

序列化将内存对象转为字节流以便跨进程传递，核心是保持数据语义完整。需根据场景选择工具：同语言服务可用Kryo或Protobuf；多语言场景常用Protobuf或Avro；Python复杂对象适合cloudpickle。实践中需统一接口定义、声明兼容策略并绑定传输层元信息，注意环境路径与配置一致性，确保业务语义对齐。

9分钟前 0
正版软件

Java日期处理历史：从Date到Calendar的变量混乱

早期Java日期处理存在设计缺陷。Date类名不副实，其方法反直觉且已过时。Calendar类虽为弥补而生，却引入复杂性和易错常量，导致状态可变、时区隐晦、线程不安全等问题。这些设计矛盾使开发者常陷入计算错误和状态混乱的困境。

10分钟前 0
正版软件

BlockingQueue 实现对比：详述 ArrayBlockingQueue、LinkedBlockingQueue、SynchronousQueue 的锁

ArrayBlockingQueue采用单锁控制读写，实现简单但并发度低。LinkedBlockingQueue使用双锁分离读写，吞吐量高但需注意容量设置。SynchronousQueue无内部存储，通过无锁算法直接匹配线程，延迟极低。选择取决于场景是否需要缓冲：需缓冲则在前两者间权衡；需强同步则选后者。

10分钟前 0