我正在使用Python 3.1,但如果需要可以降级。Python - 字母频率计数和转换
我有一个ASCII文件,其中包含用其中一种语言编写的短故事,其中的字母表可以用上和下ASCII表示。我想:
1)检测的编码,以我的能力,得到某种信心指标的(会根据文件的长度发生变化,右)
2)自动整个翻译?使用一些免费的在线服务或图书馆的东西。
附加问题:如果文本是用2个或更多字节表示一个字母并且字节顺序标记不能帮助我的语言编写的呢?
最后,我该如何处理标点和misc等字符,如空格?它会比一些字母发生得更频繁,对吧?标点符号和人物有时可能会混在一起 - 可能有逗号的两种表示,看起来像“a”的两种表示等等,这一事实如何?我已阅读。请帮助我至少一些这些项目。
谢谢!
P.S.这不是一项家庭作业,但它是为了自我教育的目的。我更喜欢使用开放源代码和可读的字母频率库,而不是那种封闭,高效的,但可以很好地完成工作的函数库。
谢谢。请详细说明第二段。我想我的编码知识并不像我想的那么深。 – 2010-02-09 23:45:14
有人说UTF-8?! – jathanism 2010-02-10 00:11:05