2012-10-19 108 views
0

我正在使用快速矿工从特定数据中抓取网站。问题是如果我试图经常抓取网站,它会提供错误的数据。抓取网站返回不良数据

如果我看到其他IP地址相同的数据它显示不同的数据进行比较,以一个我在不同的IP地址抓取。

是否有任何解决方案来克服这个问题?今天

+0

你的意思是'坏数据'和'不同数据比较'[']'?我不知道你的问题是什么。请提供一个过程和错误的确切描述! – maerch

回答

0

很多网站,尤其是网站值得挖掘(即:联)用于检测和沮丧抓取的所有,但一些大型搜索引擎,他们有协议的复杂方法。

试着改变你发送的浏览器代码,以及分配一组机器,而不是一台机器中爬行。在AWS上运行一堆微型实例比一个大型实例更可取。同时请确保您在请求之间设置延迟,因为这两者都是体贴的,并且有助于伪装您的抓取工具。