替代Tika/PDFBox解析Solr中的PDF（任何晚于1.4的版本）

似乎Solr没有正确解析我的PDF文件。我想知道是否有任何其他替代方法来使用Apache Tika（我相信它使用PDFBox在内部）解析PDF文件？我似乎在使用此内容时会在我的内容之间获得随机空格。我通过PDFBox直接运行PDF（最新版本）来解决问题，它具有相同的问题。替代Tika/PDFBox解析Solr中的PDF（任何晚于1.4的版本）

一些OCR商业软件，如Omnifind在PDF上运行良好，但我们无法以同样的方式将它们与Solr集成，购买也不是一种选择。

来源

2011-11-16 Ravish Bhagdev

您使用的是什么Tika版本？ – Gagravarr

我试过0.10，我觉得1.0刚刚出来，还没有尝试过。明天将会出手！谢谢。 –

PDFBox团队正在积极开展这个项目，每一个新版本都会改进，所以值得尝试一个更新的Tika + PDFBox，看看它是否有帮助 – Gagravarr