2012-08-29 34 views
1

抓取很多网站后,其中一些网站收到破解的编码数据。我无法对他们做任何事情,我只需要检测他们。对于像示例文本:Python检测到破损的编码

·ç¼wÃdª«|ʳf

ãà³n³¾å¢

我怎么能认识这样的文本?我使用任何语言,因此搜索非英文文本不是一种选择。我能想到的唯一选择是猜测语言模块。

+2

['chardet'](http://pypi.python.org/pypi/chardet)可能也是您感兴趣的。此外,请尽量尊重HTTP内容类型标头和内容类型的标头标签,同时牢记它们也常常是错误的:-) – Cameron

+0

cchardet更好,速度更快 – twoface88

回答

2

NLTK它有一个函数需要一个字节字符串,并尝试所有可用的编码,这是否会达到您的目的?