我需要一个库来从文档(doc,doxc,pdf,html,rtf,odt .....)中提取文本。是否有用于此目的的一个库(适用于所有文档类型)?PHP,文档阅读库
回答
在Windows以外的系统上,没有这样的库可以为您做到这一点,并且很有可能以后不会有这样的情况。主要原因是您指定的文档格式会不时更新。
然而,在Windows上,如果你安装了php,你肯定可以使用activex扩展来轻松读取所有这些格式,而且你只需要在机器上安装除php以外的适当的办公应用程序就可以得到这个上班。这也将确保将来的版本的文档继续在您的PHP代码中工作,只要您的办公应用程序可以读取这些文档。在php库的库中寻找'php win32'库,你应该找到一些不错的库
待办事项文件批量转换到一个格式,使用
odtphp http://www.odtphp.com/index.php?i=tutorials&p=tutorial1
或
PyODConverter(使用PHP命令行可执行工具,使其PHP“与工作”运行这个)http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html
然后通过任何通用的pdf2txt库或phpOCR运行最后的结果。
更安全的方法是先将文档转换为纯文本,然后解析纯文本版本的内容来做任何事情你要。有许多命令行转换器可以在任何操作系统上从不同的格式转换为纯文本(Word to txt,PDF to txt等)。
顺便说一句关于PDFs:并不是所有的文件都包含纯文本,有些只是一个扫描图像的集合,所以在这种情况下,你会运气不好(除非你会使用OCR)。
OpenTBS是一个PHP工具,可以读取修改任何OpenDocument文件(ODT,ODS,ODG,ODF,ODM,ODP,OTT,OTS,OTG,OTP)的内容。而且还有OpenXML文件(DOCX,XLSX,PPTX)。
如果您可以将具有不支持格式的文件转换为OpenTBS支持的格式之一,那么就完成了。
- 1. 阅读Apple Numbers文档的Ruby库?
- 2. 阅读Word文档的Java库
- 3. PHP文档阅读器(txt,docx,wps等)
- 4. PHP阅读“Unicode”MS Word文档
- 5. 如何阅读jQuery文档
- 6. 阅读和Word文档
- 7. Google API:阅读文档
- 8. JavaScript - 阅读XML文档
- 9. 如何阅读Javascript文档?
- 10. XCode文档 - 脱机阅读
- 11. PyQt - 如何阅读文档
- 12. 如何阅读API文档?
- 13. 阅读PHP文本
- 14. 阅读php文件
- 15. 使用Office Word与PHP阅读文档文件
- 16. 阅读文本文档存储过程
- 17. 如何阅读OpenOffice.org文本文档
- 18. 阅读谷歌文本文档
- 19. C++ MIDI文件阅读库
- 20. 用php阅读PDF文件
- 21. 用php阅读pdf文件
- 22. 用PHP阅读.info文件
- 23. 阅读CSV文件在PHP
- 24. XLSX文件,阅读在PHP
- 25. 文件名阅读PHP
- 26. 任何Objective-C库来解析/阅读单词文档?
- 27. 阅读一个Xml文档并插入数据库
- 28. 你如何阅读ramda文档?
- 29. 阅读xml文档使用jaxb
- 30. 如何阅读PLAY! API文档?
什么样的文字?你能给我们一些更多的细节吗? – 2011-01-13 18:17:40
不是“一个图书馆能够将它们全部带入黑暗中并将它们绑定”。如果有的话,我想支持是不可能的。因为涵盖所有这些格式会让任何一组开发者疯狂。对于其中一些文档格式,您甚至不会找到**任何**正式的库。 – 2011-01-13 18:23:31