2016-10-13 38 views

回答

1

StormCrawler可以处理递归爬网,并且URL优先的方式取决于用于存储URL的后端。

例如Elasticsearch module可用于此,请参阅自述文件的简短教程和sample config file,默认情况下喷口将根据其nextFetchDate(**。sort.field *)对URL进行排序。

在Nutch中,-topN参数仅指定要放入下一个细分受众群的网址的最大数量(根据使用哪个得分插件提供的分数)。使用StormCrawler我们并不需要等效的东西,因为事情没有通过批处理,爬行连续运行。

+0

而不是'nextFetchDate'可以有'inboundLinkCount'或'linkscore'之类的东西吗?基本上是一些指示符,告诉'网页对于互联网有多重要' –

+0

您可以使用状态索引中索引的任何字段。你如何为这个领域产生价值是另一回事。您可以有一个外部过程,例如基于Spark计算PageRank值并将其输入状态索引。目前在StormCrawler中没有相当于Nutch的OPIC,但通过编写一个自定义的StatusUpdaterBolt(或使用状态流的全新螺栓)来实现'inboundLinkCount'并不会太困难,这会增加字段的值基于outlinks的ES索引(状态值为DISCOVERED的元组) –