2011-09-25 108 views
2

我试图解析一个站点(用ASP编写),并且抓取工具被重定向到主站点。但我想要做的是解析给定的网址,而不是重定向的网址。有没有办法做到这一点?。我试图在settings.py文件中添加“REDIRECT = False”而没有成功。避免重定向

下面是履带一些输出:

2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500> 
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513> 
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476> 
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472> 
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457> 
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097> 
+0

您究竟如何检索URL? –

回答

1

http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097重定向到http://www.cotodigital.com.ar/default.asp,因为HTTP响应如此说。发生这种情况是因为asp代码正在检查某些条件 - 错误的页面或cookie,用户代理或引用者。检查提到的条件。

更新: 刚刚在我的浏览器中检查:浏览器也被重定向到主页,在那里我点击'跳过广告'。之后,它可以正常工作。

这意味着它设置了一些cookie,没有它将重定向到主页面。

另请参阅Scrapy - how to manage cookies/sessions

1

原始URL无关刮。它返回302,意味着没有主体,Location标头指示重定向到的位置。您需要弄清楚如何在不重定向的情况下访问URL,或许通过身份验证。