2013-05-06 40 views
0

使用外来字符处理恼人的问题(ģ,,ŗ,ļ,ā,ē,ū,ī,ņ,,,,ž及其首字母) 。他们都有长度使用len不等于1,例如len('ī')是2(处理文本时它显示为\xc4\xab)。我想要一个函数为所有这些字符返回1。任何帮助?计算在字符串中打印,未处理的字符

+1

unicode字符的'len'的返回值将取决于系统。 – Jared 2013-05-06 01:23:11

+0

@Jared嗯,我使用的是Mac OS 10.7.5,并且实现在Sage – 2013-05-06 01:36:55

+2

[实用的Unicode - 或者 - 如何阻止疼痛?](http://nedbatchelder.com/text/unipain.html ) – 2013-05-06 02:03:10

回答

0

Roboto对于说明性网页的荣誉。我的问题的简明解决方案:

def varlen(string): 
    return len(string.decode('utf-8'))