2017-05-26 28 views
0

我试图测试超出BMP范围的Unicode。下面我使用+ UD834DF01作为示例字符,并尝试将其转换为多字节字符,但程序失败并说'非法字节序列',为什么?wctomb失败:非法字节序列

#include <stdio.h> 
#include <wchar.h> 
#include <locale.h> 
#include <stdlib.h> 
#include <limits.h> 

int main(int argc, const char *argv[]) 
{ 
    setlocale(LC_ALL, ""); // my locale is UTF-8 

    wchar_t wc = 0xd834df01; 
    char bytes[MB_LEN_MAX] = {0}; 
    int r = wctomb(bytes, wc); 
    if (r > 0) { 
     for (int i = 0; i < MB_LEN_MAX; i++) 
      printf("0x%x\n", bytes[i]); 
    } else { 
     perror("fail"); 
    } 

    return 0; 
} 

回答

1

Hex D834DF01不是有效的Unicode码点;没有超过十六进制110000的值。 “替代”代码单元D834和DF01的(的序列)是UTF-16编码码点U + 10D301是在一个私用区域,而不是一个标准字符,而是有效地编码以UTF-8作为f4 8d 8c 81. UTF-16用于Windows的大部分,几乎所有的Java和其他一些地方。

更正:我在我脑子里进行了代理转换,并滑倒了一个hexit;作为评论,它实际上是在Tai Xuan Jing的U + 1D301 digram for heavenly earth

+0

这就是说gcc使用wchar_t来表示一个Unicode代码点吗? – noinput

+0

我试过libiconv,但是我的结果是U + 01D301和UTF-8作为0xf0 0x9d 0x8c 0x81 – noinput

+0

@noinput:宽字符/字符串支持主要是你的C库而不是你的编译器,glibc是现代的Unicode即UCS- 4。你对1D301是正确的,请参阅编辑。 –