带HTML标签 - 在Python

符号我使用下面的Python中剥离HTML标签，但它也消除&（号），我需要他们留下来。有任何想法吗？带HTML标签 - 在Python

从HTMLParser的进口HTMLParser的

class MLStripper(HTMLParser): 
    def __init__(self): 
     self.reset() 
     self.fed = [] 
    def handle_data(self, d): 
     self.fed.append(d) 
    def get_data(self): 
     return ''.join(self.fed) 

def strip_tags(html): 
    s = MLStripper() 
    s.feed(html) 
    return s.get_data()

（也，代码块不配合，请想象一下在最后三个行缩进）

来源

2013-10-23 chaugen1

你为什么要保留'＆'而不是'<'？在连接到HTML之前，您应该** **文本。 – SLaks

我固定的代码缩进你。 :) – jwarner112

正则表达式替换听起来像一个简单的方法来做到这一点。

import re 
text = '<b>foo&bar <a href="http://www.example.com/">link</a></b>' 
re.sub(r'<.+?>', '', text) 
# foo&bar link

可能有一些特殊情况，我没有想过哪些需要更复杂的正则表达式。

来源

2013-10-23 18:57:17 Wiwiweb

''...？ – Basic

你说得对，我已经编辑我的答案的东西更简单。 – Wiwiweb

唯一的问题我有我确信完全是因为我是一个相对NOOB是我需要设置文本=应用re.sub（...）而不仅仅是应用re.sub（...） – chaugen1

带HTML标签 - 在Python

回答

相关问题