用Python从Word文档中提取文本和图片

　　发布于2023-09-29　阅读（0）

扫一扫，手机访问

从Word文档中提取内容使我们能够将它们用于其他操作，例如将内容存储在数据库中、将内容导入到其他程序中、用于人工智能训练和创建其他文档。 Spire.Doc for Python 可以轻松从 Word 文档中提取文本和图像，无需大量复制和粘贴或复杂的代码。本文介绍如何使用简单的代码从 Word 文档中提取并保存文本和图像内容。

为 Python 导入 Spire.Doc

在使用此工具编辑 Word 文档之前，您必须将其导入项目中。可以从Spire.Doc for Python官网下载或者直接用pip安装。代码如下所示：

pip install Spire.Doc
pip install plum-dispatch==1.7.4

Musterdokument

用Python从Word文档中提取文本和图片

从Word文档中提取文本并写入TXT文件

Spire.Doc for Python 的 Document.GetText() 方法可以检索 Word 文档中的所有文本并将其作为字符串返回。我们可以将返回的字符串写入文本文件中进行存储。步骤如下：

创建一个文档对象。
使用 Document.LoadFromFile() 方法加载 Word 文档。
使用 Document.GetText() 方法从文档中获取文本。
Den abgerufenen Text in eine Textdatei schreiben.

代码贝斯皮尔

Python

Copy
from turtle import st
from spire.doc import *
from spire.doc.common import *

def WriteAllText(fname:str,text:List[str]):
        fp = open(fname,"w")
        for s in text:
            fp.write(s)
        fp.close()

inputFile = "Beispiel.docx"
outputFile = "Extrahierter Text.txt"

#Document-Objekt erstellen  
document = Document()

#Word-Dokument laden
document.LoadFromFile(inputFile)

#Text aus Dokument abrufen
text = document.GetText()

#Text in Textdatei schreiben
WriteAllText(outputFile, text)
document.Close()

Extrahierter Text

用Python从Word文档中提取文本和图片

Bilder aus Word-Dokument extrahieren und speichern

Das Extrahieren von Bildern ist etwas komplexer. Man muss prüfen, ob das untergeordnete Objekt des Dokumentenelements ein Bild oder ein zusammengesetztes Objekt ist. Bei einem Bild wird es gespeichert, bei einem zusammengesetzten Objekt muss geprüft werden, ob dessen untergeordnete Objekte Bilder enthalten. Die Schritte:

创建一个文档对象。
使用 Document.LoadFromFile() 方法加载 Word 文档。
Eine Warteschlange für zusammengesetzte Objekte erstellen und die Dokumentenelemente hinzufügen.
Eine Liste zum Speichern der extrahierten Bilder erstellen.
Die Dokumentenelemente durchlaufen und die untergeordneten Objekte jedes Knotens durchlaufen, um zu prüfen, ob es sich um ein zusammengesetztes Objekt oder Bildobjekt handelt.
Prüfen, ob das untergeordnete Element ein Bildobjekt ist. Wenn ja, die Bilddaten extrahieren und zur Liste hinzufügen.
Prüfen, ob das untergeordnete Element ein zusammengesetztes Objekt ist. Wenn ja, zur Warteschlange hinzufügen und weiter prüfen.
Bilder in einen Ordner speichern.

代码贝斯皮尔

Python

Copy
import queue
from spire.doc import * 
from spire.doc.common import *
import os

outputPath = "Bilder/"
inputFile = "Beispiel.docx"

if not os.path.exists(outputPath):
    os.makedirs(outputPath)

#Document-Objekt erstellen
document = Document()  

#Word-Dokument laden
document.LoadFromFile(inputFile)

#Warteschlange erstellen und Dokumentenelemente hinzufügen
nodes = queue.Queue()
nodes.put(document)

#Liste erstellen
images = []

#Dokumentenelemente durchlaufen
while nodes.qsize() > 0:
    node = nodes.get()
    for i in range(node.ChildObjects.Count):
        #Untergeordnetes Objekt des Dokumentenelements abrufen
        child = node.ChildObjects.get_Item(i)
        #Prüfen, ob es ein Bild ist
        if child.DocumentObjectType == DocumentObjectType.Picture:
            picture = child if isinstance(child, DocPicture) else None
            dataBytes = picture.ImageBytes
            #Zur Liste hinzufügen
            images.append(dataBytes)
        #Prüfen, ob es ein zusammengesetztes Objekt ist
        elif isinstance(child, ICompositeObject):
            #Zur Warteschlange hinzufügen
            nodes.put(child if isinstance(child, ICompositeObject) else None)

#Bilder speichern
for i, item in enumerate(images):
    fileName = "Bild-{}.png".format(i)
    with open(outputPath+fileName,'wb') as imageFile:
        imageFile.write(item)

document.Close()

Extrahierte Bilder

用Python从Word文档中提取文本和图片

Der extrahierte Text wird mit angehängten Bewertungsinformationen gespeichert. Sie können die Bewertungsinformationen direkt am Anfang des Textes löschen. Die extrahierten Bilder sind nicht mit einem Wasserzeichen versehen.

这是关于使用 Spire.Doc for Python 从 Word 文档中提取文本和图像的介绍。 Spire.Doc for Python 支持许多其他文档操作。查看官方网站或加入 Spire.Doc 论坛。

本文转载于：https://dev.to/sironly/mit-python-text-und-bilder-aus-word-dokumenten-extrahieren-4k46 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：如何在PHP中实现用户注册时发送手机短信验证码

下一篇：详解win7升级win10数据会丢失吗

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

JavaBean规范：实体类无参构造与属性私有化详解

JavaBean必须有public无参构造函数、所有字段private且仅通过publicgetter/setter访问、建议实现Serializable接口；否则Spring等框架反射创建对象或序列化时会失败。

14分钟前 0
正版软件

C++高效稀疏矩阵实现方法

CSR格式是C++中平衡内存、随机访问和乘法性能的首选稀疏矩阵表示，适用于行遍历多、列访问少的场景；其核心为row_ptr、col_indices和values三个数组，构建需两趟扫描或先COO后转换，避免频繁单点插入。

29分钟前 0
正版软件

Jackson XML 序列化强制指定命名空间前缀方法

Jackson默认不支持通过注解直接指定命名空间前缀（如n1:），需通过自定义XmlSerializerProvider和ToXmlGenerator配合XmlMapper的命名空间配置实现，核心是手动注入xmlns:n1="..."声明并确保所有元素使用n1:前缀。

44分钟前 0
正版软件

Java HashSet对象移除详解与技巧

本文深入探讨了JavaHashSet中对象移除的机制，重点阐述了equals()和hashCode()方法在确定对象唯一性和移除操作中的关键作用。文章通过分析常见的移除误区，如直接使用类名或不恰当的equals()/hashCode()实现，指出了HashSet并非所有场景下的最佳选择。教程将提供正确的移除策略，并建议在特定需求下考虑使用ArrayList等替代数据结构，以帮助开发者更有效地管理集合中的对象。

59分钟前 0
正版软件

循环中如何用前后非零值填充零值

本文讲解如何在处理温度与湿度时间序列数据时，对文件中出现的0值进行插值修复：用其前后相邻的非零值平均值替代，避免因边界索引错误或逻辑冲突导致插值失效。

1小时前 16:30 0