2014-04-01 50 views
1

每个月我都运行我的脚本以下载Google Trends CSV文件以供我的研究,并且我有大约1000个搜索条件。我知道着名的“您已达到配额限制,请稍后再试”错误消息,因此我使用了Mechanize python模块来提供cookie。这是我的电话:下载Google Trends CSV文件(来自AWS)

import mechanize # other imports omitted for simplicity 

br = mechanize.Browser() 

cj = cookielib.LWPCookieJar() 
br.set_cookiejar(cj) 

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 

response = br.open('https://accounts.google.com/ServiceLogin?hl=en&continue=https://www.google.com/') 
forms = mechanize.ParseResponse(response) 
form = forms[0] 
form['Email'] = username 
form['Passwd'] = password 
response = br.open(form.click()) 

Result = br.open("http://www.google.com/trends/trendsReport?q=SearchTerm&export=1") 
CSVcontent = csv.reader(StringIO(Result.read())) 

在我的实际脚本中,我有一个睡眠时间规格,从1到5秒不等。

但是,使用这些方法,我一次只能下载大约350个CSV文件。运行后,即使我在另一个AWS实例(不同地区,具有相同的Google帐户凭据)上重新运行我的脚本,我也只能在配额限制用完之前下载2个术语。

我也尝试在同一个实例上重新运行脚本,但使用了不同的Google凭据,但发生了同样的情况(仅限2个CSV下载)。

最糟糕的是,即使在一个月后,我仍然每天只能使用我的脚本(几个月)前使用的Google凭据下载2个CSV文件。

因此,我猜Google会监控用户在IP地址级别以及用户帐户级别的下载量,并标记下载量过大的帐户。

我的问题:

有谁能告诉我是否有一种有偿服务或API 即配额限制自由?

或者有没有办法绕过谷歌的监测(通过使用Tor或其他 方法)?但即使使用Tor,我仍然需要Google帐户凭证 对不对?

有没有办法下载没有 用户名/密码的Google Trends数据(这样我可以使用AWS自动扩展,因为每个IP地址可以至少下载2个CSV文件,所以我可以使用 )?

任何帮助和开箱即用的想法将不胜感激。

回答

-2

有没有办法下载谷歌趋势数据,而无需用户名/密码

是的,有一种方法可以让您的数据,而无需登录(我现在,它是在它的测试看起来不错,但这也是我不能分享的一个秘密,因为我不会放弃它)。

我可以分享一下,我在周末下载的文件数量在3,000到5,000之间,几乎和你一样,我每个周末都会这样做。 (2个IP,2个ID)

我唯一能给的就是不要砸Google。如果你锤击他们那里系统会把你关闭

我发现一个1.5到2分钟的休息会帮助你。

这样看:一天24小时,即1440分钟。如果你每隔2分钟就要提取一个720个文件的文件。

而且他们也不会阻止你,如果你把一个随机时间函数,他们不能告诉你是否是你或脚本。

只下载2 CSV文件的每一天,我在我的脚本(情侣)月(S)使用谷歌凭证前

,如果你不使用的帐户了它会重置一周左右;另外,如果你可以更新你的IP,这将有所帮助。

+0

嗨jnovo/Skittles: 非常感谢你的回答,很高兴知道其他人也在做与我一样的事情。 我有一个随机时间函数,但它只是从1秒到5秒不等。我一定会尝试休息1.5〜2分钟。此外,我感谢您如何恢复被阻止的帐户的帮助。当时间到了,你感觉很舒服,我会非常感兴趣的看看你的“秘密”方法。唉你的帮助深表谢意! 未来如果您想联系我们,您可以发送电子邮件至:[email protected],这是我用于下载的帐户之一:-) – user3417321

+0

请分享方式,如果有的话! –