2012-12-19 98 views
1

在我的scrapy中,我只想从自定义url中获得一个变量中的html响应。我怎样才能从硬编码的URL在scrapy中解析html

假设我有网址

url = "http://www.example.com" 

现在我想获得该网页的HTML解析

pageHtml = scrapy.get(url) 

我想是这样的

page = urllib2.urlopen('http://yahoo.com').read() 

唯一的问题我无法在我的抓取工具中使用上面的行是因为我的会话已通过scrapy进行身份验证,所以我不能使用其他任何功能获得该功能的HTML

我不想在任何回调的反应,但只是里面直变量

+0

嗨!请向我们展示您的蜘蛛代码到目前为止,以及您想要访问该页面的HTML部分,我相信有人会乐于提供帮助。 – Talvalin

+0

我还没有完整的爬虫程序代码,但我需要这个人说,但我没理解他的答案http://stackoverflow.com/questions/12879216/use-scrapy-parse-function-to-parse- a-specific-url?rq = 1 – user19140477031

回答

1

基本上,你只需要添加代码的相关进口这个问题上班。您还需要添加一个在该示例代码中使用但未定义的link变量。

import httplib 
from scrapy.spider import BaseSpider 
from scrapy.http import TextResponse 

bs = BaseSpider('some') 
# etc 
+0

如果这无助于回答所发布的问题,请告诉我如何改进我的答案,以便更好地帮助您。 :) – Talvalin

+0

抱歉,延迟响应。我想知道如果我使用该TextResponse会按会话仍将使用相同的身份验证与请求使用,并将发送Cookie。或这个网址将是分开的,如果该网页在登录系统后面,那么我将被重定向到登录页面 – user19140477031

+0

您是否尝试过看到会发生什么? – Talvalin