因此,我的代码从URL中检索HTML文件并将其保存为文本文档。查找从关键字到关键字的字符串部分
urllib.urlretrieve("http://www.testlink.com", "example.txt")
retrieve = open("example.txt", "r")
然后,我希望它从包含关键字的行中拉出特定的文本。该字符串应该是这样的:
<b class="whb">This is the text I want to retrieve</b> This is additional text that I don't want.
目前,我的代码打印整行,像这样:
for line in retrieve.readlines():
if '<b class="whb">' in line:
print line
如何指定要打印的一条线的一部分?我想要什么之间b class =“whb”和/ b。
谢谢。
使用一个html解析器,然后拉出所有具有类whb的'b'标签。您可以使用标准库中的[HtmlParser类](https://docs.python.org/2.7/library/htmlparser.html#module-HTMLParser)轻松完成此操作。 – ekhumoro
@ekhumoro下面的文档的代码片段没有奏效。无法结合str和文件对象 –
我会使用[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/)。不要重新发明轮子! – jorgeh