2009-02-23 67 views
0

我有一个“可搜索pdf”又名'具有不可见但可选择文本的图像文件'。 (当在Acrobat中打开此文件时,系统会提示“您正在以PDF/A模式查看此文档”。)用于提取“可搜索pdf”中文本边界的工具包和方法

我需要提取本文档中每个单词的边界矩形。任何建议的工具包和访问“invisi-text”单词边界框的方法?

我更喜欢java中的工具,但非常感谢您的任何建议。

回答

0

Acrobat的JavaScript库看起来是最简单,尤其是:

getPageNthWordQuads 

其在 “搜索PDF” 的作品。

将是很好,如果杂技演员JavaScript库是可以作为Java调用...

0

退房的iText库:http://www.lowagie.com/iText/

+0

iText主要用于生成pdf文档。我没有看到API中的任何内容为加载的pdf中的文本提取边界框信息。 – jedierikb 2009-02-24 12:33:51

+0

是的,你是对的。对不起,关于流浪汉。也许http://support.idrsolutions.com/default.asp?W17是一个更好的选择? – Richard 2009-02-24 17:09:09

0

PDFBOX和JPedal还提供文本提取方法。