我做的简单的正则表达式在Python蟒蛇帮助显示正则表达式的结果
我尝试re.split但像[“\ r \ n”,“\ r \ n”]来了,而不是东西答案。 有人可以请告诉我如何显示实际文本吗?
我想这样的说法:
t_html = re.split("<[a-zA-Z0-9\s\w\W]*>[a-zA-Z0-9\s\w\W]*</[a-zA-Z0-9\s\w\W]*>" ,s)
感谢
我做的简单的正则表达式在Python蟒蛇帮助显示正则表达式的结果
我尝试re.split但像[“\ r \ n”,“\ r \ n”]来了,而不是东西答案。 有人可以请告诉我如何显示实际文本吗?
我想这样的说法:
t_html = re.split("<[a-zA-Z0-9\s\w\W]*>[a-zA-Z0-9\s\w\W]*</[a-zA-Z0-9\s\w\W]*>" ,s)
感谢
如果您想使用正则表达式来解析html,请参阅here。
re.split其本质分割上的图案,但不保留它。如果你想返回与模式匹配的字符串,你可以在模式中放置圆括号:re.split((R),string)其中R是你的表达式。如果你想说找到所有不重叠的匹配使用re.findall将返回一个列表。有关更多详细信息和选项,请参阅here。
恩,请发表您*尝试*使用的正则表达式。 – kwatford 2009-12-02 23:35:32
我试图让所有的HTML标记及其内容......例如,如果我有这样的: “你好 asfasdf ” 将达到分裂它作为你好和 asfasdf –
Lilz
2009-12-02 23:43:17
不要使用正则表达式来解析html。使用美丽的汤www.crummy.com/software/BeautifulSoup – 2009-12-02 23:44:58