2013-02-22 41 views
0

我试图使用SOLR索引一组HTML文件。基本思想是为开发的网站实施网站搜索功能。对于Lucene和SOLR来说,这是非常新的尝试,并且已经尝试了几个网站上的样本,并使用这些样本索引了一些文档。但我无法得出什么是最好的做事方式的结论。有些人建议使用DataImportHandler,有些地方我使用ExtractingRequestHandler。一个简单的尝试从我身边使用ExtractingRequestHandler。因此,我将不得不更新文件列表,例如,将来可能会删除一些HTML,并且可能会添加一些HTML等.P1建议在选择方法时要考虑的因素使用SOLR索引HTML文件

干杯!

回答

0

我建议您使用Nutch来将您的HTML文件抓取并索引到Solr中。它支持跟踪文件的删除/添加到网站。

另请参阅Nutch Wiki了解入门教程。