2013-01-23 103 views
0

使用PDF Box可以快速获取PDF文档页面的快照吗?我想用关键词匹配PDF文件中的页面,然后显示找到该文本的页面的快照。任何人都可以指出我应该从哪里开始?我计划使用Lucene和PDF框为此,与C#。带快照的全文搜索引擎

回答

1

是的,你可以使用pdfbox来做到这一点。事情是这样的:

pdf = PDDocument.load(inputStream); 
// this gets you page 1 
byte[] bytes = getImageBytes(pdf, 1); 
// write out bytes as an image file 

和不过,我想你会得到更好的xpdf结果,您可以提取使用PDFTextStripper.getText()

文本等等 - 这是更加成熟,支持更多的PDF品种。

+0

Wil检查出来:) –