2012-10-24 104 views
2

我刮出一个容器,其中包括例如网址:删除所有<a>标签

<a href="url">text</a> 

我需要所有被删除,只有文字保持 ...

import urllib2, sys 
from bs4 import BeautifulSoup 

site = "http://mysite.com" 
page = urllib2.urlopen(site) 
soup = BeautifulSoup(page) 

是否有可能?

+0

你能给输入的一个例子,所需的输出吗? – kgr

回答

2
soup = BeautifulSoup(page) 
anchors = soup.findAll('a') 
for anchor in anchors: 
    anchor.replaceWithChildren() 
+0

其工作完美...谢谢.. – a1204773

6

您可以用漂白剂

做到这一点

PyPi - Bleach

>>> import bleach 

>>> bleach.clean('an <script>evil()</script> example') 
u'an &lt;script&gt;evil()&lt;/script&gt; example' 

>>> bleach.linkify('an http://example.com url') 
u'an <a href="http://example.com" rel="nofollow">http://example.com</a> url 

>>> bleach.delinkify('a <a href="http://ex.mp">link</a>') 
u'a link' 
+0

我可以这样写吗? bleach.delinkify(汤)??? – a1204773

+1

+1引入一个有趣的图书馆 – kgr

+0

不工作...它可能适用于一个链接,但它不能自动找到汤中的所有链接并删除它们...但它的确很好的库 – a1204773