我有一篇文章的html文档。我有一些标签,可以用于文本格式。但我的文本编辑器使用了大量不必要的标签进行格式化。我想用Python编写一个程序来过滤这些标签。 这样一个程序的主要逻辑(结构,策略)是什么?我是Python的初学者,希望通过解决实际的实际任务来学习这门语言。但我需要一些总体概述才能开始。如何用Python过滤html标签
0
A
回答
0
使用BeautifulSoup
:
from BeautifulSoup import BeautifulSoup
html_string = #the HTML code
parsed_html = BeautifulSoup(html)
print parsed_html.body.find('div', attrs = {attrs inside html code}).text
这里,div
只是标签,你可以使用你要筛选其文本的任何标记。
0
不那么您的要求清楚,但你应该在Python中使用现成的解析器像BeautifulSoup。
你可以找到一个tutorial here
0
只是不知道什么会错过,但你可以使用正则表达式。
re.sub('<[^<]+?>', '', text)
上述功能将搜索...
否则,你可以使用的HTMLParser
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def handle_entityref(self, name):
self.fed.append('&%s;' % name)
def get_data(self):
return ''.join(self.fed)
def html_to_text(html):
s = MLStripper()
s.feed(html)
return s.get_data()
相关问题
- 1. 如何让Redcarpet optionaly过滤HTML标签?
- 2. 过滤HTML标签的sed
- 3. 使用php过滤一个html标签
- 4. 使用HTML标签过滤单元格
- 5. 如何使用django-tagging过滤标签?
- 6. 如何使用python beautifulsoup4过滤iframe标签?
- 7. 标签内部HTML的jQuery过滤器
- 8. 如何从django模板(过滤器)永久删除html标签?
- 9. Joomla |如何过滤包含html标签的输入字符串
- 10. 与过滤标签
- 11. Chart.js标签过滤
- 12. 如何过滤标签消息eclipse?
- 13. 如何过滤模板标签?
- 14. SigmaJS如何过滤动态标签?
- 15. 如何通过Android应用程序过滤蓝牙标签
- 16. 如何通过python将markdown标签替换为html?
- 17. 如何通过getJSON传递HTML标签?
- 18. 如何编辑HTML(标签),通过CppWebBrowser
- 19. 过滤NG绑定,HTML,如果打开新的标签页
- 20. 应用-webkit-过滤器:模糊到全屏背景HTML标签
- 21. 角预输入过滤器:使用HTML标签
- 22. TwitPic过滤器按标签
- 23. 标签云过滤器
- 24. GmailApp.search不会过滤标签
- 25. Javascript过滤器通过html标签(h2和范围)
- 26. 如何过滤html表?
- 27. 如何过滤html字符?
- 28. 使用elasticsearch过滤标签与空白
- 29. 使用标签过滤cse结果
- 30. 过滤的SoundCloud的标签用PHP
你找到你要找的东西? – Jarvis