2011-06-14 88 views
4

我想在充满word文档的文件夹上运行脚本,该文件夹可以读取文档并提取图像及其标题(图像正下方的文本)。从我所做的研究中,我认为pywin32可能是一个可行的解决方案。我知道如何使用pywin32来查找字符串并将其提取出来,但我需要图像部分的帮助。如何通过docx文件读取并在发现图像时发生事件?感谢您的任何帮助!我正在使用Python 2.7。使用Python从word文档中提取图像和文本

回答

2

docx文件可以解压缩用于提取图像。

1

您可以使用python模块docx2txt来提取文本以及docx文件中的图像