我使用python 3.3在Windows 7python3:不同的字符集的支持
if "iso-8859-1" in str(source):
source = source.decode('iso-8859-1')
if "utf-8" in str(source):
source = source.decode('utf-8')
所以,目前我的应用程序的有效期为上述两个唯一的字符集...但我想涵盖所有可能的字符集。
实际上,我从网站的来源手动找到这些字符集,并且我体验到世界上所有的网站都不仅仅来自这两个网站。有时候网站不会在他们的HTML源代码中显示他们的字符集!所以,我的应用程序无法在此前进!
我应该怎么做才能自动检测字符集并根据它进行解码? 如果可能,请尽量让我深入了解并举例说明。你也可以建议重要的链接。
['chardet'](http://pypi.python.org/pypi/chardet)模块试图去预测它的输入的编码,但它有时显然会错误的。 – tripleee 2013-02-16 12:22:28
我已经试过'chardet',但是我没有明白如何实现!做Python有任何模块?或者在python3中不可能? – magneto 2013-02-16 12:27:36
还有一个Python3端口。 Google是你的朋友。 http://getpython3.com/diveintopython3/case-study-porting-chardet-to-python-3.html – tripleee 2013-02-16 12:39:15