我正在尝试使用Scrapy来抓取一些关于70k物品的网站。但每次经过它刮掉约200个项目时,泰斯错误会弹出一个休息:404:有没有什么办法可以避免在使用scrapy进行搜索时被网站拦截
scrapy] DEBUG: Ignoring response <404 http://www.somewebsite.com/1234>: HTTP status code is not handled or not allowed
我相信这是因为我的蜘蛛得到了封锁的网站,我尝试使用随机用户代理建议here但根本不能解决问题。有什么好的建议吗?
对我来说,最好的解决方法是使用'和服实验室',你可以从字面上抓取任何东西并创建一个API,并让他们担心禁止你在JSON中获取数据的情况,你可以通过点击他们的API来获得数据。 –