2014-05-21 84 views
1

我再杀一个网站,有基于JavaScript的系统分页,所以我想从@href属性提取页码,这是怎样的链接看看:得到一个值从@href属性

<a href="javascript:AllerAPage('1', 'element_id');">Page 1</a> 

回答

2

Scrapy selectors支持regular expressions

sel.xpath('//a/@href').re(r"javascript:AllerAPage\('(\d+)',") 

注意//a/@href的XPath exression就是一个例子 - 您可以有不同的一个。

演示展示了我所提供的正则表达式的工作:

>>> import re 
>>> s = "javascript:AllerAPage('1', 'element_id');" 
>>> re.search("javascript:AllerAPage\('(\d+)',", s).group(1) 
'1' 
+0

它的神奇,感谢ü:) –