1
爬行万维网时,我想为我的爬虫提供一个URL的初始种子列表 - 并希望我的爬虫能够在抓取过程中自动从互联网“发现”新的种子URL。优先考虑Storm Crawler中的递归爬行
我在Apach Nutch中看到了这样的选项(请参阅generate command of nutch中的topN参数)。 Storm Crawler中也有这样的选项吗?
爬行万维网时,我想为我的爬虫提供一个URL的初始种子列表 - 并希望我的爬虫能够在抓取过程中自动从互联网“发现”新的种子URL。优先考虑Storm Crawler中的递归爬行
我在Apach Nutch中看到了这样的选项(请参阅generate command of nutch中的topN参数)。 Storm Crawler中也有这样的选项吗?
StormCrawler可以处理递归爬网,并且URL优先的方式取决于用于存储URL的后端。
例如Elasticsearch module可用于此,请参阅自述文件的简短教程和sample config file,默认情况下喷口将根据其nextFetchDate(**。sort.field *)对URL进行排序。
在Nutch中,-topN参数仅指定要放入下一个细分受众群的网址的最大数量(根据使用哪个得分插件提供的分数)。使用StormCrawler我们并不需要等效的东西,因为事情没有通过批处理,爬行连续运行。
而不是'nextFetchDate'可以有'inboundLinkCount'或'linkscore'之类的东西吗?基本上是一些指示符,告诉'网页对于互联网有多重要' –
您可以使用状态索引中索引的任何字段。你如何为这个领域产生价值是另一回事。您可以有一个外部过程,例如基于Spark计算PageRank值并将其输入状态索引。目前在StormCrawler中没有相当于Nutch的OPIC,但通过编写一个自定义的StatusUpdaterBolt(或使用状态流的全新螺栓)来实现'inboundLinkCount'并不会太困难,这会增加字段的值基于outlinks的ES索引(状态值为DISCOVERED的元组) –