我正在使用python来检索HTML源代码,但是看起来像这样。这是什么,为什么我没有得到实际的页面源?奇怪的HTML代码看起来像这样b' xff xd8 xff xe0
B'\ XFF \ XD8 \ XFF \ xe0 \ X00 \ x10JFIF \ X00 \ X01 \ X01 \ X00 \ X00 \ X01 \ X00 \ X01 \ X00 \ X00 \ XFF \ XDB \ x00C
我正在使用python来检索HTML源代码,但是看起来像这样。这是什么,为什么我没有得到实际的页面源?奇怪的HTML代码看起来像这样b' xff xd8 xff xe0
B'\ XFF \ XD8 \ XFF \ xe0 \ X00 \ x10JFIF \ X00 \ X01 \ X01 \ X00 \ X00 \ X01 \ X00 \ X01 \ X00 \ X00 \ XFF \ XDB \ x00C
尝试使用BeautifulSoup
下面是一个例子 How to correctly parse UTF-8 encoded HTML to Unicode strings with BeautifulSoup?
基本上,你看到的是编码需要被解码后的字符。
这是一张图片。特别是一个JPEG。由于它是一个字节流python打印它b'.............'
一个jpeg开始于\xff\xd8\xff\
单线解决方案应发表评论。 – Rumit