2017-07-19 138 views
0

我正在尝试使用BeautifulSoup从Google学者的作者处获得作者的所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者的截断列表,我必须打开论文的链接以获得完整列表。结果,我每遇到一次尝试都会遇到CAPTCHA。在网址上搜索大量的Google学术搜索页面

有没有办法避免验证码(例如在每次请求后暂停3秒)?或者让原始Google Scholar个人资料页面显示完整的作者列表?

回答

2

最近我遇到过类似的问题。我至少缓解了我的收集过程有一个简单的解决方法通过实施随机而长效的睡眠是这样的:

import time 
import numpy as np 

time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds 

如果你有足够的时间(假设启动您在夜间解析器),就可以做更大的停顿(3倍以上),以确保你不会得到验证码。

此外,您可以随意更改user-agent s在您的请求到网站,这将掩盖你更多。