我是一个业余程序员,也是本网站的新成员。我已经搜索了这个问题,但没有在互联网或本网站的其他任何地方找到它。Python正则表达式查找语句
我试图抓住开放和接近段落html标记之间的所有单词(<p>
& </p>
)。我的findall语句适用于特定在线文章所有段落中的所有单词,除了单引号或双引号之外。完全有可能有更好的方法来做我想做的事情,或者可以很容易地调整这个陈述以包含带引号的段落。任何建议将不胜感激!
的findall声明:
aText = findall("<p>[A-Za-z0-9<>=\"\:/\.\-,\+\?#@'<>;%&\$\*\^\(\)\[\]\{\}\|\\!_`~ ]+</p>",text)
步骤1)在你喜欢的搜索引擎“美丽的汤”的搜索。第2步)按照其中一个清晰的示例从HTML元素中提取文本。没有第3步,它实际上是一个相当优雅的图书馆,只是为了这个目的:) –