我想确定网站上的任何搜索结果有多少页,以便我可以使用lxml和xpath为所有页面抓取数据。使用xpath解析锚标记内的文本
有一个分页标签结构如下: 页:1 2 3 ... 7下
的HTML内容相同的是像
<ul class="ulclass">
<li></li>
<li>
<span> You are on the first page</span>
"1"
</li>
<li>
<a href="link to second page">
<span></span>
"2"
</a>
</li>
<li>
</li>
...
<li>
<a href="link to last page">
<span></span>
"7"
</a>
</li>
我的做法是提取页码1,2,3,7,这样我就可以重复每次页面抓取7次网页的原因,否则它只会抓取页面的第一个结果。 我写了下面的xpath,但它没有返回正确的页码。
的xpath('// UL [@类= “ulclass”]/LI /一个/文本())
如果你正在做网络抓取其他软件工作* *? –
我目前没有使用python和lxml以外的其他任何东西。 – separ1