我正在开发webcrawler,以自动在巴西网站上下载一些文档。它使用一些未知的编码(头标记中没有定义字符集)。urllib编码问题
通过一些非常小的努力,人们可以阅读文档。但真正的问题是,列出文档的页面使用包含加重字符的URL的链接。但是,在不知道页面的编码的情况下,当我从urllib2.urlopen中检索它时,所有的字符都搞砸了。
例如Í
字符为Cyrillic capital letter E
。
我使用BeautifulSoup和美化不起作用,因为urllib2已经返回与坏字符的文档。
还有一件事:soup.originalEncoding
返回None
。
如何设置urllib2.urlopen
以识别字符集或设置“期望的编码”,以便返回浏览器上显示的字符?
有多少巴西编码可以呢? CP860? http://docs.python.org/library/codecs.html?highlight=codecs#standard-encodings – monkut 2012-08-16 13:27:05