我正在与图书管理员合作,重新组织他的数码摄影档案。Web Scraper:限于单个域每分钟/小时的请求数?
我已经构建了一个Python机器人Mechanize和BeautifulSoup来从一个集合中抽取大约7000个结构性很差且温和的不正确/不完整的文档。数据将被格式化为电子表格,他可以用它来纠正它。现在,我总共猜测7500个HTTP请求来构建搜索字典,然后收集数据,不计算代码中的错误和遗漏,随着项目的进展,还有更多。
我认为我可以提出这些请求的速度有一些内置的限制,即使没有,我也会给我的机器人延迟表现出对负担过重的Web服务器的礼貌。我的问题(不可能完全准确地回答)是关于在遇到内置速率限制之前可以多快地发出HTTP请求?
我不希望发布我们正在抓取的域名的URL,但如果相关,我会问我的朋友是否可以分享。
注意:我意识到这是而不是解决我们的问题的最佳方法(重构/组织数据库),但我们正在构建一个概念证明来说服上级相信我的朋友与数据库的副本,他将从中导航必要的官僚机构,以便我直接处理数据。
他们也向我们提供了ATOM feed的API,但它需要一个关键字来搜索,并且对于逐步浏览特定集合中的每张照片似乎没有用处。
我建议你每秒提出一个请求,并在夜间或周末运行。你应该保存。 – janoliver