我是Scrapy框架&的新用户,目前正在使用它从多个“Health & Wellness”网站中提取文章。对于某些请求,scrapy会重定向到主页(在浏览器中不会出现此行为)。下面是一个例子:Scrapy重定向到某个网址的主页
命令: scrapy壳 “http://www.bornfitness.com/blog/page/10/” 结果: 2015年6月19日21:32:15 + 0530 [scrapy] DEBUG:Web服务侦听127.0.0.1:6080 2015 - 06-19 21:32:15 + 0530 [默认]信息:蜘蛛打开 2015-06-19 21:32:15 + 0530 [默认]调试:重定向(301)到http://www.bornfitness.com/ > from http://www.bornfitness.com/blog/page/10/> 2015-06-19 21:32:16 + 0530 [default] DEBUG:Crawled(200)http://www.bornfitness.com />(referer:None)
请注意url(10)中的页码是一个两位数的数字。我没有看到这个问题与单页面页码(例如8)的网址。 结果: 2015-06-19 21:43:15 + 0530 [默认] INFO:蜘蛛打开 2015-06-19 21:43:16 + 0530 [default] DEBUG:Crawled(200)http:// www (引用者:无)
您是否获得了200次成功加载页面的200次_before_?即 - 第8页是否将您重定向到第8页? – tegancp