我有一个“可搜索pdf”又名'具有不可见但可选择文本的图像文件'。 (当在Acrobat中打开此文件时,系统会提示“您正在以PDF/A模式查看此文档”。)用于提取“可搜索pdf”中文本边界的工具包和方法
我需要提取本文档中每个单词的边界矩形。任何建议的工具包和访问“invisi-text”单词边界框的方法?
我更喜欢java中的工具,但非常感谢您的任何建议。
我有一个“可搜索pdf”又名'具有不可见但可选择文本的图像文件'。 (当在Acrobat中打开此文件时,系统会提示“您正在以PDF/A模式查看此文档”。)用于提取“可搜索pdf”中文本边界的工具包和方法
我需要提取本文档中每个单词的边界矩形。任何建议的工具包和访问“invisi-text”单词边界框的方法?
我更喜欢java中的工具,但非常感谢您的任何建议。
Acrobat的JavaScript库看起来是最简单,尤其是:
getPageNthWordQuads
其在 “搜索PDF” 的作品。
将是很好,如果杂技演员JavaScript库是可以作为Java调用...
退房的iText库:http://www.lowagie.com/iText/
PDFBOX和JPedal还提供文本提取方法。
iText主要用于生成pdf文档。我没有看到API中的任何内容为加载的pdf中的文本提取边界框信息。 – jedierikb 2009-02-24 12:33:51
是的,你是对的。对不起,关于流浪汉。也许http://support.idrsolutions.com/default.asp?W17是一个更好的选择? – Richard 2009-02-24 17:09:09