在过去的一个月中,我一直在使用Scrapy开展一个网络爬虫项目。最佳网络图爬行速度?
该项目涉及从主页可访问的单个域名中拉下所有网页的全部文档内容。使用Scrapy编写它非常简单,但运行速度太慢。在2-3天内,我只能打10万页。
我意识到我最初的观点认为Scrapy并不适合这种类型的抓取,这是在揭示它自己。
我已经开始专注于Nutch和Methabot,希望有更好的表现。我需要在抓取过程中存储的唯一数据是网页的全部内容,并且最好是页面上的所有链接(但即使这些数据可以在后期处理中完成)。
我在寻找一种快速并使用许多并行请求的爬网程序。
它也可能是你的ISP。 – 2013-02-12 18:22:06