2011-07-28 205 views
0

我正在开发一个全文搜索引擎,用于对流行的二进制格式进行索引。我知道有这样的问题(和解决方案)已经hundereds,但我发现它很难找到一个:解决方案将PDF,DOC,DOCX转换为python文本格式

  • 跨平台
  • 支持DOC,DOCX和PDF格式在一次
  • 好用与Python
  • 可以在各大共享主机

回答

1
  • 对PDF文件进行设置,我建议PDFminer
  • 尝试使用docx模块(我自己没有用过)
  • 我不知道任何纯Python模块可以读取.doc文件。
  • 有一些命令行工具可从.doc文件中提取文本:antiword和catdoc(可能还有其他文件)。如果软件包安装在共享主机上,则可以使用subprocess来提供这些工具。通过Cygwin在Windows上提供。
  • Apache POI是一个Java库,可以从Office文档中提取文本。如果您的共享主机安装了Java,则可以编写一些Java(或Jython)代码并使用subprocess执行。
+0

根据编辑建议,作者使用了docx模块。 –

0

一个可能的解决方案是使用谷歌文档提取二进制.DOC,文件中的文本内容。您将文档上传到Google文档,然后下载文本内容。这是一个相当缓慢的过程,但它是我所知道的唯一的“纯Python”解决方案,因为除了网络访问外,它不需要任何外部工具。如果您允许将其安装在主机上,则可以使用外部工具(如catdoc或antiword),这是一个更好的解决方案。