2014-02-23 82 views
0

HTML:如何获取嵌套元素?

<a title="ЧП в СаранскеСсылка на это сообщение #41" rel="bookmark" href="http://forum.saransk.ru/topic/193296-chp-v-saranske/page-3#entry3556494" data-entry-pid="3556494" itemprop="replyToUrl">    
    #41 
    <img title="ЧП в СаранскеСсылка на это сообщение #41" class="small" src="http://forum.saransk.ru//public/style_images/master/icon_share.png"> 
</a> 


<a title="ЧП в СаранскеСсылка на это сообщение #41" rel="bookmark" href="http://forum.saransk.ru/topic/193296-chp-v-saranske/page-3#entry3556494" data-entry-pid="3556494" itemprop="replyToUrl">    
    #42 
    <img title="ЧП в СаранскеСсылка на это сообщение #41" class="small" src="http://forum.saransk.ru//public/style_images/master/icon_share.png"> 
</a> 

.................. 

请有助于使序列号的列表。它应该是这个样子:

['#41', '#42', '#43', '#44', '#45', '#46'] 

我使用下面的代码:

list = [] 
html = requests.get(value) 
soup = bs4.BeautifulSoup(html.text) 
num = soup.findAll('a', {'itemprop': 'replyToUrl'}) 
print(value , num, end='\n') 
list.append(num) 

但是这个代码放置在额外数据的列表

回答

2
>>> [a.text.strip() for a in soup.find_all('a', {'itemprop': 'replyToUrl'})] 
[u'#41', u'#42', u'#43', u'#44', u'#45', u'#46', u'#47', u'#48', u'#49', u'#50']