我遇到了Solr的pdf文本提取问题。 Solr使用Apache Tika提取PDF文件的文本,而tika使用PDFBox。当我将PDF文件发送到Solr时,它会成功提取文本,但文本完全混乱。 类似的东西Solr ExtractingRequestHandler pdf文本提取
MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht
但是,当我在用下面的命令在命令行直接与PDFBox的提取相同的PDF文件,我会得到一个不错的结果。
Java的罐子PDFBOX-APP-1.6.0.jar ExtractText -console检验.pdf
我不知道哪个版本蒂卡或更高,这就PDFBox的版本所使用的Solr。我甚至无法找到,在战争Solr的文件对库...在lib目录的所有库有以下几种:
09.09.2011 09:06 <DIR> .
09.09.2011 09:06 <DIR> ..
09.09.2011 09:06 1.421.869 apache-solr-core-3.4.0.jar
07.09.2011 13:12 22.478 apache-solr-noggit-r1099557.jar
09.09.2011 09:06 281.626 apache-solr-solrj-3.4.0.jar
07.09.2011 13:12 188.671 commons-beanutils-1.7.0.jar
07.09.2011 13:12 58.160 commons-codec-1.4.jar
07.09.2011 13:12 575.389 commons-collections-3.2.1.jar
07.09.2011 13:12 27.361 commons-csv-1.0-SNAPSHOT-r966014.jar
07.09.2011 13:12 57.779 commons-fileupload-1.2.1.jar
07.09.2011 13:12 305.001 commons-httpclient-3.1.jar
07.09.2011 13:12 109.043 commons-io-1.4.jar
07.09.2011 13:12 257.923 commons-lang-2.4.jar
07.09.2011 13:12 28.804 geronimo-stax-api_1.0_spec-1.0.1.jar
07.09.2011 13:12 932.554 guava-r05.jar
07.09.2011 13:12 17.308 jcl-over-slf4j-1.6.1.jar
07.09.2011 13:12 12.359 log4j-over-slf4j-1.6.1.jar
09.09.2011 09:04 850.852 lucene-analyzers-3.4.0.jar
09.09.2011 09:02 1.398.580 lucene-core-3.4.0.jar
09.09.2011 09:04 61.997 lucene-grouping-3.4.0.jar
09.09.2011 09:04 83.615 lucene-highlighter-3.4.0.jar
09.09.2011 09:04 30.214 lucene-memory-3.4.0.jar
09.09.2011 09:04 69.797 lucene-misc-3.4.0.jar
09.09.2011 09:04 45.979 lucene-queries-3.4.0.jar
09.09.2011 09:04 57.912 lucene-spatial-3.4.0.jar
09.09.2011 09:04 62.164 lucene-spellchecker-3.4.0.jar
07.09.2011 13:12 25.496 slf4j-api-1.6.1.jar
07.09.2011 13:12 8.890 slf4j-jdk14-1.6.1.jar
07.09.2011 13:12 419.521 velocity-1.6.1.jar
07.09.2011 13:12 309.896 velocity-tools-2.0-beta3.jar
07.09.2011 13:12 520.969 wstx-asl-3.2.7.jar
29 Datei(en) 8.242.207 Bytes
2 Verzeichnis(se), 21.805.932.544 Bytes frei
我是真的真的很高兴,如果有人知道应该是一个解决方案。
好的,我用最新的1.6.0 jar文件替换了pdfbox,fontbox和jempbox lib,我仍然得到相同的结果。 – itsme
好吧,当我使用每晚构建档案文本提取工程相当不错。但我宁愿使用稳定版本 – itsme
我已经用distly和contrib目录替换了nightly build的内容。现在PDF提取工作很好。我希望其他一切都会保持稳定=) – itsme