我需要从已使用OCR程序转换的PDF中提取文本。我是否使用普通PDFReader来获取文本,或者是否需要特殊处理OCR转换后的PDF?使用C#搜索OCR(可搜索)PDF
4
A
回答
2
这取决于它是如何转换的。许多OCR应用程序以某种方式将文本置于图像下。一些人通过首先将图像放置在顶部来放置文本来实现这一点。有些将图像放在底部,然后使用“不标记”传输模式将文本放在顶部。
我提到这一点是因为我无法预测任何特定的文本提取工具如何响应透明文本。理论上,它应该只给你文本(这是Acrobat所做的)。任何人都会猜测,所有文本提取工具是否都会发生这种情况。
0
有许多用于处理pdf文件的商业SDK。 http://www.foxitsoftware.com/pdf/sdk/activex/这是狐狸的。
+0
我的问题是,使用某些OCR软件转换的PDF是否与普通PDF不同。或者是一个OCR转换的PDF只是一个包含更多文本而不是图像的PDF。我不太了解这个PDF结构。 – enamrik 2011-02-16 17:18:54
相关问题
- 1. pdf可搜索ps
- 2. 使用pdf搜索网页
- 3. 使用Rails提供可搜索的PDF
- 4. PDF文本搜索C#
- 5. 从可搜索的pdf中读取,不包含ocr
- 6. Xamarin.iOS Pdf搜索
- 7. 索引/搜索PDF内容使用Solr
- 8. 使用Cloudera索引PDF文档搜索
- 9. 搜索使用C#
- 10. 如何仅以文件名搜索.jpg/PDF(仅搜索“dog”即可搜索“dog.jpg”)是否可以完成? C#
- 11. 搜索用C
- 12. 搜索用C
- 13. 使用MongoDB进行弹性搜索:搜索PDF
- 14. 如何搜索PDF?
- 15. 文本搜索PDF
- 16. 如何编辑可搜索PDF的搜索文本?
- 17. Typo3 PDF索引索引搜索
- 18. 使用c搜索文件#
- 19. 脚本来搜索文件夹OCR的PDF文件
- 20. 使用php转换扫描的pdf到可搜索的pdf
- 21. 使用Datatable插件无搜索搜索
- 22. 高级搜索使用Hibernate搜索
- 23. 使用NHibernate搜索的搜索建议
- 24. 使用搜索宝石搜索
- 25. 如何使用搜索:搜索API在txt文件中搜索?
- 26. 使用AJAX搜索引擎在Chrome中搜索搜索引擎
- 27. 复杂全文搜索使用PlayFramework搜索/ Hibernate搜索
- 28. 使用快速搜索框即时搜索Android搜索
- 29. 使用Zend Lucene搜索PDF文件
- 30. 使用PHP搜索PDF文件
谢谢,这个答案与我所问的最接近(我显然没有正确地问)。就PDF格式而言,OCR转换的PDF与非OCR PDF没有区别。 OCR过程只是扫描图像并将文本添加到PDF。我使用Aspose来提取文本,并且我想确保如果给我的程序提供非OCR PDF,就不会有什么不好的事情发生。 – enamrik 2011-02-17 19:09:34