2014-02-05 176 views
0

好吧,我计划建立在我的企业内部网的本地搜索引擎,其搜索类似XLS,XLSX,DOC,DOCX,PDB等搜索文件的内容

文件的内容在互联网,我想,经过搜索Luke Lucene可以用于此目的。我对吗? Lucene可以集成到网站吗?

我有大约500GB的文件可以处理这些许多文件?有其他选择吗?

我只知道C和CPP的基础知识,我没有任何关于此的知识。我是一名自学者,请向我推荐一本关于Lucene的好书。

回答

1

是的,Lucene可以用于这个。但有一些代码,你需要自己编写(如Lucene是只是一个库): - 爬行代码 - 文本提取 - 建立一个搜索应用..

,所以你可能会更好看solr,即建立在Lucene之上,并有许多内置的功能,你可以使用:一个坚实的服务器,您可以使用任何语言和dih为您的爬行需求,tika集成文本提取,其他许多事情

+0

你可以建议我关于so​​lr或任何在线教程的好书。 – samnaction

+0

现在有几本书,http://lucene.apache.org/solr/books.html我自己我拥有Apache Solr 3企业级搜索服务器,但它现在可能有点过时了。 – Persimmonium