2016-05-05 42 views
-1

的最后一个数字,用python传递一个网站的分页,我想查找网站的最后一页。我如何找到标签

from bs4 import BeautifulSoup 
import re 

html = your_html_here 

soup = BeautifulSoup(html, "html5lib") 
links = soup.findAll('a', text=re.compile('^\s*\d+\s*$')) 
number = links[-1].string.strip() 
print number 
# 5 

参见: 我通过萤火虫

<div class="pagination"> 
       <ul> 
        <li> 
           <a> 
            <img src="/images" class="pagination-l"> 
           </a> 
        </li> 
          <li style="float:left;"> 
           <a id="toPage" title="A" class="page-number actif" href="/d"> 
            1 
           </a> 
          </li> 
          <li style="float:left;"> 
           <a id="toPage_0" title="A2" class="p" href="/ew"> 
            2 
           </a> 
          </li> 
          <li style="float:left;"> 
           <a id="toPage_1" title="A3" class="p3" href="/t3"> 
            3 
           </a> 
          </li> 
          <li style="float:left;">...</li> 
          <li style="float:left;"> 
           <a id="toPage_2" title="t" class="p" href="t2"> 
            5 
           </a> 
          </li> 
        <li> 
          <a id="nextPage" title="next(2)" href="/test1"> 
           <img src="test.png" class="pagination-r"> 
          </a> 
        </li> 
       </ul> 
</div> 

在这里,我要的是

+0

一个字:[** BeautifulSoup **](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) – Jan

+0

@jan我不知道最后一页的编号 – parik

回答

1

使用解析器和正则表达式的组合的号码检查网页的元素a demo on ideone.com

+1

感谢您的回答和演示 – parik