2016-12-06 157 views
0

我有以下代码:BeautifulSoup获取文本链接?

soup = BeautifulSoup(content, "html.parser") 
block = soup.select('.meta-info a') 

我需要在块.meta_info

所有环节后,我尝试从阵列block获得的链路上的所有文字,只有具有电子邮件地址作为文本链接。

我的意思是:

<a href="">Bla bla [email protected]</a> 

我怎样才能得到它呢?

我试着为:

for item in block: 
      email_par = emailFromString(item.text) 

      if email_par[0]: 
       pass 

但它的工作原理并不稳定

+0

发布一些HTML以便我们可以更好地理解 – user2915097

回答

1

此链接可能会有所帮助css select with regex

,如果你仍然不能想出办法来试试这个, 请确保您有BeautifulSoup最新版本

import re 
soup = BeautifulSoup(content, "html.parser") 
block = soup.select('.meta-info a') 

emails = block.find_all(text=re.compile('.*@.*\.com')) 

现在您可以遍历它并从每个链接中提取文本

1
import re 
soup.find_all(name='a', text=re.compile(r'@')) 
相关问题