用于提取“可搜索pdf”中文本边界的工具包和方法

我有一个“可搜索pdf”又名'具有不可见但可选择文本的图像文件'。（当在Acrobat中打开此文件时，系统会提示“您正在以PDF/A模式查看此文档”。）用于提取“可搜索pdf”中文本边界的工具包和方法

我需要提取本文档中每个单词的边界矩形。任何建议的工具包和访问“invisi-text”单词边界框的方法？

我更喜欢java中的工具，但非常感谢您的任何建议。

2009-02-23 jedierikb

Acrobat的JavaScript库看起来是最简单，尤其是：

getPageNthWordQuads

其在 “搜索PDF” 的作品。

将是很好，如果杂技演员JavaScript库是可以作为Java调用...

2009-02-24 14:33:05 jedierikb

2009-02-24 08:44:26 Richard

iText主要用于生成pdf文档。我没有看到API中的任何内容为加载的pdf中的文本提取边界框信息。 – jedierikb 2009-02-24 12:33:51

是的，你是对的。对不起，关于流浪汉。也许http://support.idrsolutions.com/default.asp?W17是一个更好的选择？ – Richard 2009-02-24 17:09:09

PDFBOX和JPedal还提供文本提取方法。

2009-02-26 09:02:02

回答