我有2列格式的pdf。我能够解析它为简单的文本,但这些pdf也有图像之间。因此,我的文本输出混乱起来,为PDF中间有图像的特定页面。带图像的IText Pdf阅读器
例如,考虑一个2列页面格式
图片文本2
图片图片
图片文本3
文本1图片
Text4
输出是 文本4文本3文本2文本1而不是文字1 Text2 Text3 Text4
任何解决方案,以阅读正确的顺序文本?
我使用下面的代码
public void parsePdf(String pdf, String txt) throws IOException {
PdfReader reader = new PdfReader(pdf);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
PrintWriter out = new PrintWriter(new FileOutputStream(txt));
TextExtractionStrategy strategy;
for (int i = 76; i <= reader.getNumberOfPages(); i++) {
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
out.println(strategy.getResultantText());
}
out.flush();
out.close();
}