我知道PDF和文本可搜索的PDF是有区别的。文本可搜索的PDF文件具有用于搜索的文本覆盖。是否有可能将此文本叠加到一个txt文件中?也许使用Adobe API?是否可以从可搜索的PDF访问文本覆盖?
4
A
回答
8
“Searchable PDF”不是官方的定义,但它是一个常用的表达式。
如果一个标准的PDF已经嵌入了所有使用的字体,并且这些字体没有使用自定义编码,那么它很可能是“可搜索的”:这意味着您可以复制'n'你可以从中提取文本(和像pdftotext
这样的工具或多或少地完美工作)。这与“文本覆盖”无关,它是PDF的标准体系结构。
您所描述的“文本覆盖”是可以添加到扫描的 PDF中。扫描创建的PDF是整页图像,通常是TIFF,嵌入在PDF页面(否则为空)中。然后,在附加步骤中,通过针对它运行OCR(光学字符识别)来添加“文本叠加”。这提供了“可搜索性”,否则愚蠢的“像素专用”PDF。
如果这样一个带有“文本叠加”的PDF不会在其字体周围使用奇怪的构造,那么应该很容易将这些文本解压缩到* .txt文件中。毕竟,在一个只有图像的PDF运行OCR旨在增加 “搜索” 文本:
安装
pdftotext
(可用于Linux,UNIX,Windows和Mac OS X的),然后尝试运行:pdftotext -layout some-input.pdf some-input.txt
注意事项,大多数OCR从完美的作品远。如果您对个字符的识别率达到99%,那么您将很幸运。 (但是,这意味着:所有话和所有句子约100%含有约10%的误差 - 这会给你保证,在高中失败...)
还应当注意这些“文本叠加”在技术上与PDF中的任何其他文本部分相同(除了它们包含更多拼写和语法错误:-) - 但它们使用特殊文本呈现模式(模式3
),描述为“既不填充也不是描边文字(不可见)。“虽然它是'隐形',你仍然可以突出显示,复制'n'paste或提取这些文本部分。
相关问题
- 1. 是否可以覆盖NSUserDefault?
- 2. 如何仅以文件名搜索.jpg/PDF(仅搜索“dog”即可搜索“dog.jpg”)是否可以完成? C#
- 3. 是否可以直接访问索引?
- 4. 如何确定PDF是否可搜索
- 5. 检查PDF是否可搜索
- 6. 是否可以覆盖例外?
- 7. 是否可以删除或覆盖cmdlet?
- 8. 可以覆盖是否被弃用?
- 9. 是否可以通过XBAP覆盖HTML?
- 10. 是否可以覆盖/绕过nscd?
- 11. 是否可以在全局覆盖print()?
- 12. 是否有PDF库可以处理可访问性?
- 13. 可以通过实例和类访问的可覆盖属性
- 14. 搜索栏的文本框覆盖
- 15. 是否可以从纯Java访问BDB?
- 16. 是否可以从Jruby访问Spring bean
- 17. 是否可以从manifest.json访问localStorage?
- 18. 是否可以从Google搜索中捕获搜索词?
- 19. VBA是否可以搜索具有特定字体的文本
- 20. 是否可以仅覆盖本机控件的一个ViewState?
- 21. 如何编辑可搜索PDF的搜索文本?
- 22. 打印到PDF是可搜索和可从现有的PDF是可供选择和搜索
- 23. 是否可以搜索jdom的属性?
- 24. 可搜索的PDF文件(图像+文本PDF)验证
- 25. 确定PDF文件是否具有PHP中的可搜索文本
- 26. 是否可以覆盖behat上下文中的步骤定义?
- 27. 是否可以覆盖由其他msi安装的xap文件?
- 28. 是否可以覆盖另一个文件中的变量
- 29. 是否可以恢复由git checkout覆盖的文件?
- 30. 是否可以覆盖jboss-web.xml文件中的设置?
谢谢。这不仅是启发,但它完美地回答了我的问题。 – bheussler