0
我想索引扫描的PDF文件。我已经在Centos 6上安装了Solr 6.3.0,tesseract 3.04,leptonica 1.74我已经根据documentation配置了我的solrconfig。Apache Solr不索引扫描的PDF
我已经测试了tesseract和solr的png,jpg,并且每件事情都很好看。但是当我尝试索引扫描的PDF文件时,Solr没有索引扫描图像,只提取pdf注释消息(sample document)。 (DefaultParser和PDFParser根据索引响应使用)
之后,我谷歌搜索的问题,我发现这solution(我测试过,它的工作原理!),但我无法转换Java代码为Xml配置。我应该如何将该java代码设置为Xml配置文件?
任何帮助将是伟大的!