如何从Objective-C的PDF页面获取文本?如何从PDF页面获取文本?
2
A
回答
2
这是用于iOS或OS X的吗?如果对于OS X,您可以简单地创建一个Automator工作流程来提取文本,并从您的应用程序调用该工作流程。 Automator具有PDF操作“Extract PDF Text”就是为了这个目的。 Automator framework允许从你的应用程序调用automator动作。还有一些示例代码可以在http://rogueamoeba.com/utm/2005/06/03/找到(请注意,实际代码已经更新以使用Automator框架)。
4
首先 - 放弃任何用于解析PDF的“快速&脏”解决方案 - 它会失败。我的同事花了很多时间在iOS上正确地解决这个问题。他的前3名(质量,降序)选项:
- muPDF(http://www.mupdf.com/)伟大的图书馆 - 它会做提取罚款。它在GPL下获得许可,但这对于我们的专有应用来说是一个阻碍。
- 基于CGPDFScanner的自制解决方案。你可以找到如何做到这一点的简短说明here。这种方法的主要问题是SDK本身 - 苹果公司的PDF API非常严格(并且故意怀疑)是有限的。例如,您必须在2D空间中放置提取的文本块,因为PDF不能保证绘图的顺序与文本流相匹配,并且iOS SDK在这里没有什么帮助。
- Poppler(http://poppler.freedesktop.org/)是可以的,但对于文本提取,它大致等同于第二个选项(具有大量额外的依赖关系)。
可以有更多的选项与Mac OS X,但我不知道他们。
+1
muPDF仅用于查看。 – Jamil 2016-03-21 10:52:40
相关问题
- 1. 如何从HTML页面获取PDF(UIWebView)
- 2. jQuery:如何从页面获取文本?
- 3. 如何从pdf页面使用Zend_Pdf提取文本
- 4. Android-从PDF获取文本
- 5. 如何从html页面获得pdf
- 6. 从SWF Offer中获取PDF页面Avis
- 7. 如何从html页面提取文本?
- 8. 如何从html页面提取文本?
- 9. 从html页面获取文本shell
- 10. 从多页PDF集合中提取页面级ASCII文本?
- 11. XPATH - 如何从网页获取文本?
- 12. 如何使用ABCPdf.NET从PDF文件的所有页面中提取文本?
- 13. 从PDF文件中获取纯文本
- 14. 如何使用CAM :: PDF在PDF页面中获取文本字符串的文本方向?
- 15. 如何获取pdf文档中的页面坐标onclick
- 16. 如何使用jsoup从此html页面获取文本?
- 17. 如何从文本字段获取值到前进页面?
- 18. 如何从页面获取文本? Selenium,C#
- 19. 当我使用iText从PDF文件中提取文本时我从前面的页面获取值
- 20. PDF如何获取文本的高度
- 21. 如何从网页获取文本到我们的本地html页面?
- 22. 如何从doc或pdf文件中读取特定页面。
- 23. 如何从iOS上的pdf文件中提取给定页面?
- 24. 如何获取Google Apps脚本中PDF文件的页数?
- 25. 从网页获取文本
- 26. 从网页获取文本
- 27. 如何从pdf文件获取highligted word?
- 28. 从pdf中提取当前页面的文本(使用MuPDF)
- 29. 蟒蛇 - 从PDF页面明智提取文本列出
- 30. iphone从pdf页面创建PDF文件
重复的问题。请参阅http://stackoverflow.com/questions/3287635/how-to-parse-pdf-in-objective-c-for-ipad – Avi 2012-02-24 08:36:17
那么答案在哪里呢? – demon9733 2012-02-24 08:38:15
@Avram这个问题与从PDF提取文本无关 – hoha 2012-02-24 08:39:27