我们正在用Solr和Lucene构建PDF搜索机器,用户可以在其中搜索PDF文本。该数据库只包含PDF。Solr PDF搜索:“转到页面”功能
在搜索结果页面(“/ browse”)中,我们想要附加带有#page = X的PDF文件,其中X是文本被发现的页面。 (如果有锚标签中指定的Adobe Acrobat自动滚动到某一页。)
例如,如果我搜索foobar
,有一个PDF文档,其中foobar
是第5页上,该链接应该是http://pdfserver/pdfs/pdf.pdf#page=5
(注意锚最后)。
- 这可能吗?
- 我们如何得到这个页码?
我不认为我明白你实际想要达到的目标。你想索引PDF文件和任何搜索,你可以返回匹配文本的页码或是其他东西吗? –
没错。因此,如果我搜索“foobar”,并有第5页“foobar”的pdf文档,链接应该是http://pdfserver/pdfs/pdf.pdf#page=5 –
您是否曾经找到过解决方案?索引一系列PDF文件时,似乎是一项基本要求。 – MrTelly