优先考虑Storm Crawler中的递归爬行

爬行万维网时，我想为我的爬虫提供一个URL的初始种子列表 - 并希望我的爬虫能够在抓取过程中自动从互联网“发现”新的种子URL。优先考虑Storm Crawler中的递归爬行

我在Apach Nutch中看到了这样的选项（请参阅generate command of nutch中的topN参数）。 Storm Crawler中也有这样的选项吗？

来源

2016-10-13 Tushar Goswami

StormCrawler可以处理递归爬网，并且URL优先的方式取决于用于存储URL的后端。

例如Elasticsearch module可用于此，请参阅自述文件的简短教程和sample config file，默认情况下喷口将根据其nextFetchDate（**。sort.field *）对URL进行排序。

在Nutch中，-topN参数仅指定要放入下一个细分受众群的网址的最大数量（根据使用哪个得分插件提供的分数）。使用StormCrawler我们并不需要等效的东西，因为事情没有通过批处理，爬行连续运行。

来源

2016-10-13 11:19:47

而不是'nextFetchDate'可以有'inboundLinkCount'或'linkscore'之类的东西吗？基本上是一些指示符，告诉'网页对于互联网有多重要' –

您可以使用状态索引中索引的任何字段。你如何为这个领域产生价值是另一回事。您可以有一个外部过程，例如基于Spark计算PageRank值并将其输入状态索引。目前在StormCrawler中没有相当于Nutch的OPIC，但通过编写一个自定义的StatusUpdaterBolt（或使用状态流的全新螺栓）来实现'inboundLinkCount'并不会太困难，这会增加字段的值基于outlinks的ES索引（状态值为DISCOVERED的元组） –

优先考虑Storm Crawler中的递归爬行

回答

相关问题