2012-05-22 41 views
-5

我有成千上万的Cvs,我想搜索以“计算机科学”为背景的简历。Lucene搜索有什么好的选择?

因此,我搜索了一下,并知道Lucene执行此项工作,我需要将数据提供给Lucene,并将所有文档编入索引。

在搜索特定文本(比如'Compuet科学')时,它会导致CV与结果匹配。

为此,我需要将MSword-93/MSword-2007/PDF转换为文本并提供Lucene。

我可以从文本文件MSword2007的,但我无法从2003年MSWORD得到

有很多PDF的作家,但我没有得到任何PDF阅读器库,它可以做到这一点。

请将PDF阅读器库文件转换为PDF文件并将ms93文件转换为文本或请让我知道是否有任何其他的Lucene搜索。

谢谢,非常感谢您的回答

+4

你在这里一次问半打问题。请将你的问题的范围限制在一个明确的主题上。 – deceze

回答

0

您可以使用Apache Solr或直接Tika来提取PDF和MS Word和建立索引的文本。两者都是Java项目,但您可以从PHP调用它们的服务器。