我正在使用Python和Xpath一起抓取Reddit。目前我正在首页上工作。我试图从头版中提取链接并在shell中显示它们的标题。使用XPath从超链接中提取文本
为此,我使用Scrapy框架。我正在Scrapy壳本身测试这个。
我的问题是:我如何从<a> ABC </a>
属性中提取文本。我想要字符串“ABC”。我找不到它。我尝试了以下表达式,但它似乎不起作用。
response.xpath('//p[descendant::a[contains(@class,"title")]]/@value')
response.xpath('//p[descendant::a[contains(@class,"title")]]/@data')
response.xpath('//p[descendant::a[contains(@class,"title")]]').extract()
response.xpath('//p[descendant::a[contains(@class,"title")]]/text()')
他们都不似乎工作。当我使用extract()
时,它给了我整个属性本身。例如,而不是给我ABC
,它会给我<a>ABC</a>
。
如何提取文本字符串?
这是我犯的错误! – 2014-11-24 02:12:37