我已经给了一个url,并且我想从url中提取<BODY>
标记的内容。 我正在使用Python3。我遇到了sgmllib
,但它不适用于Python3。用Python解析html标记
有人可以引导我与此?我可以使用HTMLParser
吗?
这里是我的尝试:
import urllib.request
f=urllib.request.urlopen("URL")
s=f.read()
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print("Encountered some data:", data)
parser = MyHTMLParser()
parser.feed(s)
这给了我错误:类型错误:无法将“字节”对象为str隐含
“请指导我”:会做。搜索。有人问。很多很多次。在你完成搜索之后(在右上角),根据已经给出的答案,随时询问**特定的**问题。 – 2012-02-01 20:11:01
需要具体解析url中的parser.feed()方法吗? – Nerd 2012-02-01 20:15:48
@ghbhatt:向我们展示您需要的一个示例。否则,请参阅我的回答是这是你问的。 – RanRag 2012-02-01 20:16:52