如何使用Java确定PDF页面是包含文本还是纯图片?确定PDF页面是包含文本还是纯图片
我搜索了很多论坛和网站,但我还找不到答案。
是否可以从PDF中提取文本,以了解页面是否为格式图片或文本?
PdfReader reader = new PdfReader(INPUTFILE);
PrintWriter out = new PrintWriter(new FileOutputStream(OUTPUTFILE));
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
// here I want to test the structure of the page !!!! if it's possible
out.println(PdfTextExtractor.getTextFromPage(reader, i));
}
这看起来很相关。也许你需要在这里得到赏金 – Coffee
谢谢Adel先生,我希望如此:) –