抓取很多网站后,其中一些网站收到破解的编码数据。我无法对他们做任何事情,我只需要检测他们。对于像示例文本:Python检测到破损的编码
·ç¼wÃdª«|ʳf
或
ãà³n³¾å¢
我怎么能认识这样的文本?我使用任何语言,因此搜索非英文文本不是一种选择。我能想到的唯一选择是猜测语言模块。
抓取很多网站后,其中一些网站收到破解的编码数据。我无法对他们做任何事情,我只需要检测他们。对于像示例文本:Python检测到破损的编码
·ç¼wÃdª«|ʳf
或
ãà³n³¾å¢
我怎么能认识这样的文本?我使用任何语言,因此搜索非英文文本不是一种选择。我能想到的唯一选择是猜测语言模块。
有NLTK它有一个函数需要一个字节字符串,并尝试所有可用的编码,这是否会达到您的目的?
看看https://github.com/LuminosoInsight/python-ftfy
如果我理解正确的话,它会尝试“修复”不正确编码/解码的文本。
['chardet'](http://pypi.python.org/pypi/chardet)可能也是您感兴趣的。此外,请尽量尊重HTTP内容类型标头和内容类型的标头标签,同时牢记它们也常常是错误的:-) – Cameron
cchardet更好,速度更快 – twoface88