2011-01-13 95 views
4

我需要一个库来从文档(doc,doxc,pdf,html,rtf,odt .....)中提取文本。是否有用于此目的的一个库(适用于所有文档类型)?PHP,文档阅读库

+1

什么样的文字?你能给我们一些更多的细节吗? – 2011-01-13 18:17:40

+3

不是“一个图书馆能够将它们全部带入黑暗中并将它们绑定”。如果有的话,我想支持是不可能的。因为涵盖所有这些格式会让任何一组开发者疯狂。对于其中一些文档格式,您甚至不会找到**任何**正式的库。 – 2011-01-13 18:23:31

回答

0

在Windows以外的系统上,没有这样的库可以为您做到这一点,并且很有可能以后不会有这样的情况。主要原因是您指定的文档格式会不时更新。

然而,在Windows上,如果你安装了php,你肯定可以使用activex扩展来轻松读取所有这些格式,而且你只需要在机器上安装除php以外的适当的办公应用程序就可以得到这个上班。这也将确保将来的版本的文档继续在您的PHP代码中工作,只要您的办公应用程序可以读取这些文档。在php库的库中寻找'php win32'库,你应该找到一些不错的库

2

更安全的方法是先将文档转换为纯文本,然后解析纯文本版本的内容来做任何事情你要。有许多命令行转换器可以在任何操作系统上从不同的格式转换为纯文本(Word to txt,PDF to txt等)。

顺便说一句关于PDFs:并不是所有的文件都包含纯文本,有些只是一个扫描图像的集合,所以在这种情况下,你会运气不好(除非你会使用OCR)。

1

OpenTBS是一个PHP工具,可以读取修改任何OpenDocument文件(ODT,ODS,ODG,ODF,ODM,ODP,OTT,OTS,OTG,OTP)的内容。而且还有OpenXML文件(DOCX,XLSX,PPTX)。

如果您可以将具有不支持格式的文件转换为OpenTBS支持的格式之一,那么就完成了。