我创建了一个函数来读取特定网址的HTML内容。这里是代码:Python有时返回奇怪的结果当从URL读取HTML
def __retrieve_html(self, address):
html = urllib.request.urlopen(address).read()
Helper.log('HTML length', len(html))
Helper.log('HTML content', html)
return str(html)
但是,该函数并不总是返回正确的字符串。在某些情况下,它会返回一个非常奇怪的字符串。
例如,如果我使用的网址:http://www.merdeka.com
,有时它会给出正确的HTML字符串,但有时也返回类似结果:
HTML content: b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xed\xfdyW\x1c\xb7\xd28\x8e\xffm\x9f\x93\xf7\xa0;y>\xc1\xbeA\xcc\xc2b\x03\x86\x1cl\xb0\x8d1\x86\x038yr\......Very long and much more characters.
它似乎只在有任何的网页发生很多内容。对于像Facebook.com登录页面和Google.com索引这样的简单页面,它从未发生过。这是什么?我的错误在哪里以及如何处理?
是的,它的工作原理。你是对的先生。谢谢! – yunhasnawa