我对beautifulsoup的编码不熟悉。如何在beautifulsoup中查看属性时使用标签
当我解决了一些页面,一些属性是中文,我想用这个中文属性来提取标签。
例如,一个HTML象下面这样:
<P class=img_s>
<A href="/pic/93/b67793.jpg" target="_blank" title="查看大图">
<IMG src="/pic/93/s67793.jpg">
</A>
</P>
我想提取 '/pic/93/b67793.jpg' 所以我所做的就是:
img_urls = form_soup.findAll('a',title='查看大图')
抓大放小:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xb2 in position 0: ordinalnot in range(128)
与这个解决,我已经做了两个方法,都失败了: Ø NE的方法是:
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
另一种方式是:
response = unicode(response, 'gb2312','ignore').encode('utf-8','ignore')
如何找到每一个中国人的对应unicode.such查看大图= \ u67e5 \ u770b \ u5927 \ u56fe ,在哪里可以找到它?thx pieters – young001
你给了我一个想法,如果我可以将所有非ascii字符替换为unicode,这样beautifulsoup可以与非英文页面一起工作。 – young001
@ young001:我刚刚在python提示符下键入'u'',复制并粘贴您的表意文字,然后添加另一个关闭'''并敲回车。然后Python向我展示了unicode逃脱。 –