0
我想用Nutch抓取网站,然后在Solr中索引结果。
我在solr schema.xml文件中。想象在这个文件中我有字段内容。
但是每个网站都有自己的模式,例如在一些我想在“内容字段(solr模式)”中设置“body”标签“ 和另一个网站我想要设置”内容“ solr模式)“。
我的意思是如果在抓取结果中发现body标记,我用它来存储内容字段, 否则如果我找到body标记我使用这个值来存储在模式文件中。
我该怎么做?
基于在每个网站中找到的标签,我可以根据nutch crael结果中的多个Tag值设置solr fill中的特殊字段吗?index apache nutch result in solr
感谢我发现阿帕奇蒂卡有用。我看到我可以写我自己的txt解析器(在我的情况下自己的html解析器)。所以我有我自己的logic.and提取自己的div id从html pages.so我可以使用nutch然后tika然后索引在solr – sara