2017-01-16 50 views
0

我想索引扫描的PDF文件。我已经在Centos 6上安装了Solr 6.3.0,tesseract 3.04,leptonica 1.74我已经根据documentation配置了我的solrconfig。Apache Solr不索引扫描的PDF

我已经测试了tesseract和solr的png,jpg,并且每件事情都很好看。但是当我尝试索引扫描的PDF文件时,Solr没有索引扫描图像,只提取pdf注释消息(sample document)。 (DefaultParser和PDFParser根据索引响应使用)

之后,我谷歌搜索的问题,我发现这solution(我测试过,它的工作原理!),但我无法转换Java代码为Xml配置。我应该如何将该java代码设置为Xml配置文件?

任何帮助将是伟大的!

回答

0

您可以使用Lucene 3.0来索引和搜索扫描的pdf文件。我已经完成使用Lucene 3.0索引扫描的pdf文件并在扫描的pdf中搜索最频繁重复的文字。