index apache nutch result in solr

我想用Nutch抓取网站，然后在Solr中索引结果。
我在solr schema.xml文件中。想象在这个文件中我有字段内容。
但是每个网站都有自己的模式，例如在一些我想在“内容字段（solr模式）”中设置“body”标签“ 和另一个网站我想要设置”内容“ solr模式）“。
我的意思是如果在抓取结果中发现body标记，我用它来存储内容字段，否则如果我找到body标记我使用这个值来存储在模式文件中。
我该怎么做？
基于在每个网站中找到的标签，我可以根据nutch crael结果中的多个Tag值设置solr fill中的特殊字段吗？index apache nutch result in solr

来源

2016-02-15 sara

使用Nutch索引内容并发布到Solr应该很简单。但是，如果您想添加逻辑并且规则列表可能会增加，建议您使用内容处理引擎。

我已经看到了这个工具用于该特定目的，但它使用Heritrix的是履带式，你可以创建Groovy脚本来决定如何处理您的内容：www.searchtechnologies.com/aspire

来源

2016-02-15 14:24:33 xmorera

感谢我发现阿帕奇蒂卡有用。我看到我可以写我自己的txt解析器（在我的情况下自己的html解析器）。所以我有我自己的logic.and提取自己的div id从html pages.so我可以使用nutch然后tika然后索引在solr – sara

index apache nutch result in solr

回答

相关问题