Python检测到破损的编码

抓取很多网站后，其中一些网站收到破解的编码数据。我无法对他们做任何事情，我只需要检测他们。对于像示例文本：Python检测到破损的编码

·ç¼wÃdª«|Ê³f

或

ãà³n³¾å¢

我怎么能认识这样的文本？我使用任何语言，因此搜索非英文文本不是一种选择。我能想到的唯一选择是猜测语言模块。

2012-08-29 twoface88

['chardet']（http://pypi.python.org/pypi/chardet）可能也是您感兴趣的。此外，请尽量尊重HTTP内容类型标头和内容类型的标头标签，同时牢记它们也常常是错误的:-) – Cameron

cchardet更好，速度更快 – twoface88

有NLTK它有一个函数需要一个字节字符串，并尝试所有可用的编码，这是否会达到您的目的？

2012-08-29 21:35:18

如果我理解正确的话，它会尝试“修复”不正确编码/解码的文本。

2012-08-29 21:42:04

回答