2014-03-26 26 views

回答

37

当您超出一定数量的请求时,Google最终会阻止您的IP。

+3

上次我查看它时,我正在使用API​​通过Google进行搜索。如果我没有记错,限制是在2.500个请求/天。 – Severin

75

谷歌不允许他们的TOS自动访问,所以如果你接受他们的条款,你会打破他们。

这就是说,我知道谷歌对刮刀没有任何诉讼。甚至微软也刮起了谷歌,他们用它为他们的搜索引擎Bing提供动力。 They got caught in 2011 red handed :)

有两个选项凑谷歌搜索结果:

1)使用他们的API

  • 可以发出大约为每小时40要求你被限制到什么 他们给你,如果你想跟踪排名 职位或真正的用户会看到什么,这不是很有用。这是你不是允许收集的 。

  • 如果您想要支付更高数量的API请求。

  • 每小时60请求花费2000美元每年,更多查询需要 自定义交易。

2)刮的正常结果页面

  • 来了棘手的部分。可以刮掉正常的结果页面。 谷歌不允许它。
  • 如果你的速度超过8 (从15更新)关键字请求的每小时风险检测,高于10/h (从20更新)会阻止我的经验。
  • 通过使用多个IP,您可以提高速率,所以使用100个IP地址,您可以每小时处理1000个请求。 (24K日)(更新)
  • 有一个在http://scraping.compunect.com PHP编写的开源搜索引擎刮它允许可靠刮谷歌,解析正确的结果和管理IP地址,延迟等 所以如果你可以使用PHP这是一个很好的kickstart,否则代码仍然是有用的,以了解它是如何完成的。

3)或者使用刮服务(更新)

  • 最近我的一个客户有一个巨大的搜索引擎刮要求,但它不是“正在进行”,它更像一个巨大的刷新每月。
    在这种情况下,我找不到一个“经济”的自制解决方案。
    我改用http://scraping.services的服务。 他们还提供开源代码,目前运行良好(刷新过程中每小时几千个结果页)
  • 缺点是这样的服务意味着您的解决方案“受限于”某个专业供应商,优势在于它比我评估的其他选项便宜很多(在我们的案例中速度更快)
  • 减少对一家公司的依赖性的一个选择是同时制定两种方法。使用抓取服务作为数据的主要来源,并回到基于代理的解决方案,如2)所述。
+4

我对这个解释的问题是,即使少数几个共享相同IP的人每小时也会大大超过20个请求。如果这是整个故事,那么谷歌将基本上阻止每一个定期大量使用电脑的小企业。接受的答案会有同样的问题。 – krowe

+5

其实谷歌确实定期验证阻止NAT IP,我一直在多家公司工作,验证码的案例多次出现。 我也应该澄清,我的意思是20个关键字不同的请求,只要您坚持使用相同的关键字,您可以继续浏览结果页面。 此外,该块不会在一小时后发生,你可以真正爆发谷歌,但如果你继续以更高的速度击中它,你将被送入Captcha-land。谷歌似乎对爆发很友善,但如果你继续前进,则不会。试试吧:) – John

+1

我一直在多个项目中使用它(搜索引擎刮板和建议之一)。它工作得非常完美。 由于Google的变化,一年左右就会停止工作,通常会在几天内更新。 – John

3

谷歌在刮蹭世界各地的网站上蒸蒸日上......所以如果它“非常非法”,那么即使谷歌也不会生存..当然其他答案提到了Google减轻IP块的方式。另一种探索避免验证码的方法可能是随机抽取(dint try)。此外,我有一种感觉,如果我们提供新颖性或数据的某些重要处理,那么至少对我而言听起来很好......如果我们只是简单地复制一个网站......或以某种方式阻碍其业务/品牌...然后它是坏的,应该避免..最重要的是......如果你是一家创业公司,那么没有人会因为那里而战斗你没有任何好处..但是如果你的整个前提在刮目相看,那么你应该考虑更复杂的方法......替代性的API ..最后...... Google也一直在为它的API释放(或删除)字段,所以你现在想要报废的可能是新的Google API发布路线图。