2016-02-15 59 views
0

我想用Nutch抓取网站,然后在Solr中索引结果。
我在solr schema.xml文件中。想象在这个文件中我有字段内容。
但是每个网站都有自己的模式,例如在一些我想在“内容字段(solr模式)”中设置“body”标签“ 和另一个网站我想要设置”内容“ solr模式)“。
我的意思是如果在抓取结果中发现body标记,我用它来存储内容字段, 否则如果我找到body标记我使用这个值来存储在模式文件中。
我该怎么做?
基于在每个网站中找到的标签,我可以根据nutch crael结果中的多个Tag值设置solr fill中的特殊字段吗?index apache nutch result in solr

回答

0

使用Nutch索引内容并发布到Solr应该很简单。但是,如果您想添加逻辑并且规则列表可能会增加,建议您使用内容处理引擎。

我已经看到了这个工具用于该特定目的,但它使用Heritrix的是履带式,你可以创建Groovy脚本来决定如何处理您的内容:www.searchtechnologies.com/aspire

+0

感谢我发现阿帕奇蒂卡有用。我看到我可以写我自己的txt解析器(在我的情况下自己的html解析器)。所以我有我自己的logic.and提取自己的div id从html pages.so我可以使用nutch然后tika然后索引在solr – sara