0
A
回答
2
0
PDF不只是一个二进制表示。把它看作一个对象树,其中一个对象节点有一些元数据和一些内容信息。其中一些对象有字符串数据,有些则不。其中一些甚至被加密,有些被压缩。所以,你的字符串查找程序很难在任何PDF上运行。
2
回答this question中提到的组件/库应该做你需要的。
1
我只是在做一个这样的项目。我使用的方法是将PDF文件转换为纯文本(使用pdftotext.exe),并在结果文本上创建一个索引。我们对word和其他办公文件也做同样的工作,效果很好!
直接从德尔福(没有外部应用程序)直接搜索pdf文件是我觉得更困难。如果您发现任何问题,请在此更新,因为我也会对此感兴趣!
1
我使用的一个选项是使用微软的ifilter技术,这是用于Windows桌面搜索和许多其他产品,如SharePoint和SQL Server全文搜索。
它支持几乎任何类似office/office的文件格式,甚至包括dwg,msg,pdf和zip/rar归档文件。
最简单的使用方法是在任何文件上运行FiltDump.exe,然后索引文本输出。
要了解安装在PC上的过滤器,可以使用ifilter explorer。 维基百科的ifilters page有一些链接。
1
快速PDF库的GetPageText功能可以为您提供PDF格式的文字以及页码和这些文字的坐标 - 有时用于突出显示。
相关问题
- 1. 在pdf文件中搜索字符串
- 2. 搜索PDF文件中的文本
- 3. 文本搜索PDF
- 4. pdf文件文本阅读和搜索
- 5. 搜索PDF文本文本
- 6. Drupal 7索引pdf文件搜索
- 7. 根据字数搜索多个pdf文件中的单词和索引pdf
- 8. 文本文件中的搜索字段
- 9. 可搜索的PDF文件(图像+文本PDF)验证
- 10. 如何搜索字符串中的PDF文件
- 11. 如何索引PDF文件并搜索关键字?
- 12. 在文本文件中搜索数字?
- 13. Flex,AIR:在指定文件夹中搜索.pdf文件
- 14. SQL Server PDF全文搜索无法使用FileStream PDF文件
- 15. Marklogic PDF文档搜索
- 16. PDF文本搜索C#
- 17. 上传和搜索大型PDF文件
- 18. 使用Zend Lucene搜索PDF文件
- 19. 阅读和PDF文件搜索
- 20. 使用PHP搜索PDF文件
- 21. 在SharePoint上搜索PDF文件
- 22. 使用PHP搜索PDF文件
- 23. html/php搜索多文档内的文本PDF文件
- 24. 脚本来搜索文件夹OCR的PDF文件
- 25. 在文件夹中搜索pdf文本字符串的更快方法
- 26. 搜索文本文件的字符串
- 27. 如何搜索多个pdf文件的内容并返回pdf的文件名?
- 28. 搜索字符串文件
- 29. txt文件中的搜索字符串
- 30. PHP搜索文件中的字符串
-1是一个工具。 – alamodey 2009-02-18 00:38:49