2013-03-18 121 views
1

有什么方法可以使用iText库来获取PDF文件中给定段落的段落数量或内容?我在一些代码中看到了一些类,如段落,块在创建新的PDF文件,但我找不到任何方式来获取这些类阅读文件。每个想法都被赞赏如何使用iText库获取pdf文件的段落内容?

回答

3

您正在讨论的是PDF格式的PDF吗?否则,你对PDF做出了错误的假设。在PDF中,内容在页面上绘制。例如:一个iText PdfPTable被转换成文本状态操作符,将文本片段绘制到画布上,以及绘制路径和形状的图形状态操作符。如果PDF未加标签,则行不知道它们是表格的边界;一个单词不知道它属于哪个单元格。

这同样适用于段落:文本片段不知道它是否属于一个句子,一个段落,一个标题行,...

由于PDF的本质,是什么你正在寻找可能是不可能的(使用iText或任何其他软件产品),或可能需要启发式(人工智能)来检查所有文本状态操作符和内容的语义,以获得模仿人类如何解释文本的结果。

如果您的PDF标记正确,这很容易实现。请参阅ParseTaggedPdf示例。

相关问题