4

似乎Solr没有正确解析我的PDF文件。我想知道是否有任何其他替代方法来使用Apache Tika(我相信它使用PDFBox在内部)解析PDF文件?我似乎在使用此内容时会在我的内容之间获得随机空格。我通过PDFBox直接运行PDF(最新版本)来解决问题,它具有相同的问题。替代Tika/PDFBox解析Solr中的PDF(任何晚于1.4的版本)

一些OCR商业软件,如Omnifind在PDF上运行良好,但我们无法以同样的方式将它们与Solr集成,购买也不是一种选择。

+0

您使用的是什么Tika版本? – Gagravarr

+0

我试过0.10,我觉得1.0刚刚出来,还没有尝试过。明天将会出手!谢谢。 –

+0

PDFBox团队正在积极开展这个项目,每一个新版本都会改​​进,所以值得尝试一个更新的Tika + PDFBox,看看它是否有帮助 – Gagravarr

回答

2

由于this SO question的回答表明,这是由于PDF格式本身的性质。

这有可能是OCR选项做在这个问题上比PDFBox的更好,有可用像TesseractOcropus一些免费的OCR选择,但我不知道他们是如何工作,或者如果他们可以使用Solr很容易地集成。

+0

谢谢,我明白了,但我只是在尝试寻找替代品,以便列出哪些文档适用于哪种文档。自从我阅读回复后,我并不是在寻找完美的解决方案:) –

1

Xpdf包含pdftotext,它将文档转换得更好,然后Tika。

+4

您是否可以详细了解“更好”的含义? – gondo

1

我使用jpod作为pdfbox在pdfbox完全失败(hang,crash ...)时提取的后备库,所以至少在某些情况下,它比我的pdbbox效果更好。