带快照的全文搜索引擎

使用PDF Box可以快速获取PDF文档页面的快照吗？我想用关键词匹配PDF文件中的页面，然后显示找到该文本的页面的快照。任何人都可以指出我应该从哪里开始？我计划使用Lucene和PDF框为此，与C＃。带快照的全文搜索引擎

是的，你可以使用pdfbox来做到这一点。事情是这样的：

pdf = PDDocument.load(inputStream); 
// this gets you page 1 
byte[] bytes = getImageBytes(pdf, 1); 
// write out bytes as an image file

和不过，我想你会得到更好的xpdf结果，您可以提取使用PDFTextStripper.getText（）

文本等等 - 这是更加成熟，支持更多的PDF品种。

2013-01-28 22:29:23

Wil检查出来:) –

回答