2
我正在研究一个python脚本来做一些网页报废。我想找到一个网页上给定的部分看起来像这样的基地网址:改善一个python片段
<div class='pagination'>
<a href='webpage-category/page/1'>1</a>
<a href='webpage-category/page/2'>2</a>
...
</div>
所以,我只需要得到一切从第一HREF除号(“网页类别/页/ “),我有以下工作代码:
pages = [l['href'] for link in soup.find_all('div', class_='pagination')
for l in link.find_all('a') if not re.search('pageSub', l['href'])]
s = pages[0]
f = ''.join([i for i in s if not i.isdigit()])
的问题是,产生这个名单是一种浪费,因为我只需要第一个HREF。我认为发电机将是答案,但我无法解决这个问题。也许你们可以帮我让这段代码更简洁?
好吧,你差不多了。但实际上该页面有两个'分页'div,其中一个具有以下结构('网页类别/ pageSub/1')。这个对我不感兴趣,所以我通过重新丢弃它。你可以将所有这些分配到一个班轮吗? – XVirtusX
@XVirtusX好的,当然。你能告诉我相关的html或网站的链接吗?我很确定,这个任务可以用比'href'使用正则表达式过滤链接更清洁的方式来完成。谢谢。 – alecxe
网站:http://www.hdwallpapers.in/cars-desktop-wallpapers/page/2 – XVirtusX