0
使用PDF Box可以快速获取PDF文档页面的快照吗?我想用关键词匹配PDF文件中的页面,然后显示找到该文本的页面的快照。任何人都可以指出我应该从哪里开始?我计划使用Lucene和PDF框为此,与C#。带快照的全文搜索引擎
使用PDF Box可以快速获取PDF文档页面的快照吗?我想用关键词匹配PDF文件中的页面,然后显示找到该文本的页面的快照。任何人都可以指出我应该从哪里开始?我计划使用Lucene和PDF框为此,与C#。带快照的全文搜索引擎
是的,你可以使用pdfbox来做到这一点。事情是这样的:
pdf = PDDocument.load(inputStream);
// this gets you page 1
byte[] bytes = getImageBytes(pdf, 1);
// write out bytes as an image file
和不过,我想你会得到更好的xpdf结果,您可以提取使用PDFTextStripper.getText()
文本等等 - 这是更加成熟,支持更多的PDF品种。
Wil检查出来:) –