我正在开发一个全文搜索引擎,用于对流行的二进制格式进行索引。我知道有这样的问题(和解决方案)已经hundereds,但我发现它很难找到一个:解决方案将PDF,DOC,DOCX转换为python文本格式
- 跨平台
- 支持DOC,DOCX和PDF格式在一次
- 好用与Python
- 可以在各大共享主机
我正在开发一个全文搜索引擎,用于对流行的二进制格式进行索引。我知道有这样的问题(和解决方案)已经hundereds,但我发现它很难找到一个:解决方案将PDF,DOC,DOCX转换为python文本格式
.doc
文件。.doc
文件中提取文本:antiword和catdoc(可能还有其他文件)。如果软件包安装在共享主机上,则可以使用subprocess
来提供这些工具。通过Cygwin在Windows上提供。subprocess
执行。如果在服务器端,您可以使用OpenOffice,那么你可以使用unoconv: Convert between any document format supported by OpenOffice
一个可能的解决方案是使用谷歌文档提取二进制.DOC,文件中的文本内容。您将文档上传到Google文档,然后下载文本内容。这是一个相当缓慢的过程,但它是我所知道的唯一的“纯Python”解决方案,因为除了网络访问外,它不需要任何外部工具。如果您允许将其安装在主机上,则可以使用外部工具(如catdoc或antiword),这是一个更好的解决方案。
Textract使用每种文件的默认工具。
根据编辑建议,作者使用了docx模块。 –