我有这个小代码,它给了我AttributeError:'NoneType'对象没有属性'组'。Python正则表达式 - 解析HTML
import sys
import re
#def extract_names(filename):
f = open('name.html', 'r')
text = f.read()
match = re.search (r'<hgroup><h1>(\w+)</h1>', text)
second = re.search (r'<li class="hover">Employees: <b>(\d+,\d+)</b></li>', text)
outf = open('details.txt', 'a')
outf.write(match)
outf.close()
我的意图是读一个.HTML文件寻找<h1>
标签值和员工的数量和它们添加到文件中。但由于某种原因,我似乎无法做到。 我们非常感谢您的帮助。
@larsmans:无数的人也包括[this one](http://stackoverflow.com/questions/4231382/regular-expression-pattern-not-matching-anywhere-in-string/4234491#4234491)这实际上演示了如何用正则表达式解析HTML。与此相比,海伦的任务在这里是微不足道的。所以不那么触发 - 高兴。 –
很遗憾,你不能使用'vi'来编辑HTML文件,innit? – tchrist
我认为像美丽肥皂的Scrapy这样的高级图书馆会比正则表达式更适合您的任务。 – mariosangiorgio