我有擦伤网页与urllib2的一些简单的Python代码:Unicode字符2.7.10
response = urllib2.urlopen(url)
charset = response.headers.getheader("Content-Type")
charset = charset[charset.index("charset=") + 8:]
html = response.read()
html = " ".join(html.split())
html = html.decode(charset)
html = html.replace("amp;", "").replace("'", "'")
我的问题是,我刮页面有特雷奥毛利语中的词汇,因此它有许多包含宏的词汇,例如。 “Pūtaiao。”当我打印HTML时,所有宏字母都被替换为问号,并且我没有使用任何替换解码方法。它甚至发生没有任何解码,分裂或加入。
在同一网站上还有另一个页面,其中包含一些相同的单词,macron在python中完全显示。我还注意到,页面的响应标题中的字符集是utf-8,而带有问号的页面位于ISO-8859-1中,因此可能与它有关。
带问号的网站的链接是http://www.nzqa.govt.nz/ncea/assessment/search.do?query=reo+maori&view=all&level=01。
其他页面http://www.nzqa.govt.nz/qualifications-standards/qualifications/ncea/subjects/
谢谢!这解决了这个问题。 – james