在python:unicode号码是什么?
>>> "\xc4\xe3".decode("gbk").encode("utf-8")
'\xe4\xbd\xa0'
>>> "\xc4\xe3".decode("gbk")
u'\u4f60'
我们可以得到两个结论:
1. \ XC4 \ XE3在GBK编码= \ XE4 \ XBD \ XA0以UTF-8
2. \ XC4 \ XE3在GBK编码= \ x4f \ X60以Unicode(或说在UCS-2)
在R:
> iconv("\xc4\xe3",from="gbk",to="utf-8",toRaw=TRUE)
[[1]]
[1] e4 bd a0
> iconv("\xc4\xe3",from="gbk",to="unicode",toRaw=TRUE)
[[1]]
[1] ff fe 60 4f
目前,结论1是正确的,它是在作为同蟒蛇如R
结论2是一个谜题,
什么是地球上的\ xc4 \ xe3在gbk编码= ??在unicode。
in python它是u'\ u4f60',在R它是ff fe 60 4f
是等于?哪一个是正确的?它们都是正确的吗?
[绝对最小每个软件开发人员绝对,肯定必须知道Unicode和字符集(没有借口!)](http://www.joelonsoftware.com/articles/Unicode.html) – delnan
[维基百科中的Unicode]( http://en.wikipedia.org/wiki/Unicode):*“Unicode可以通过不同的字符编码实现,最常用的编码是UTF-8,UTF-16和现在已过时的UCS-2 ... 。“* –
这篇维基百科文章讨论了GBK编码。 http://en.wikipedia.org/wiki/GBK本文介绍了Python中的Unicode http://docs.python.org/howto/unicode.html –