2016-04-22 43 views
-3

我碰到这个非常大的工具,潜水前深入到一些不那么漂亮文件及/或购买一个ebook传来:我只想问一句:Apache的Nutch的津贴

如何Apache的Nutch的处理JavaScript重的网站,它如何获取页面? 我的意思是:它如何克服IP禁令?

+0

可怕的文件? – Prasad

+0

嘿,对不起,这:)它只是我已阅读一些更多的说明和实用的书籍 –

回答

0

使用Javascript - 有一个基于硒协议的实现,这可以用JS网站

的Nutch基于Hadoop的,所以是批量驱动的帮助。如果您是在基于流的爬行框架之后,那么StormCrawler将是更好的工具。

+0

Selenium协议和批量驱动:谢谢! IP禁令怎么样:我知道Nutch只是遵循robots.txt。我认为它依靠这样一个事实解决了这个问题,它在部署在像Amazon Cloud Services这样的巨大平台上时更加有用,对吧? –