2012-02-12 15 views
3

我发现,在VC++ 2010和的回报信件正确的计数wcslen();同时Xcode不会。 例如,下面的代码在VC++ 2010中返回正确的11,但在Xcode 4.2中返回错误的17。wcslen()的工作方式不同的Xcode和VC++

const wchar_t *p = L"123abc가1나1다"; 
size_t plen = wcslen(p); 

我想Xcode的应用程序商店wchar_t字符串作为存储UTF-8。这是另一件奇怪的事情。

我如何获得11就像VC++在Xcode吗?

+0

它工作得很好,对我来说。在源代码上运行终端上的'hexdump -C sourcefile.c'的输出是什么? – 2012-02-12 03:28:31

+0

我从GCC_VERSION = com.apple.compilers.llvm.clang.1_0改变GCC_VERSION = com.apple.compilers.llvmgcc42,结果从17改为11正确! – 2012-02-12 06:35:43

+0

这是叮当中的一个错误/不受支持的功能,并且自此以后已修复。以前,clang只支持ascii作为源编码,它不会将字符串文字从UTF-8转换为广泛的执行字符集。 – bames53 2012-02-16 21:27:59

回答

4

我跑了一台Mac Mini这个程序运行的MacOS X 10.7.2(Xcode的4.2):

#include <stdio.h> 
#include <wchar.h> 

int main(void) 
{ 
    const wchar_t p[] = L"123abc가1나1다"; 
    size_t plen = wcslen(p); 
    if (fwide(stdout, 1) <= 0) 
    { 
     fprintf(stderr, "Failed to make stdout wide-oriented\n"); 
     return -1; 
    } 
    wprintf(L"String <<%ls>>\n", p); 
    putwc(L'\n', stdout); 
    wprintf(L"Length = %zu\n", plen); 
    for (size_t i = 0; i < sizeof(p)/sizeof(*p); i++) 
     wprintf(L"Character %zu = 0x%X\n", i, p[i]); 
    return 0; 
} 

当我做了源文件的十六进制转储,我看到:

0x0000: 23 69 6E 63 6C 75 64 65 20 3C 73 74 64 69 6F 2E #include <stdio. 
0x0010: 68 3E 0A 23 69 6E 63 6C 75 64 65 20 3C 77 63 68 h>.#include <wch 
0x0020: 61 72 2E 68 3E 0A 0A 69 6E 74 20 6D 61 69 6E 28 ar.h>..int main(
0x0030: 76 6F 69 64 29 0A 7B 0A 20 20 20 20 63 6F 6E 73 void).{. cons 
0x0040: 74 20 77 63 68 61 72 5F 74 20 70 5B 5D 20 3D 20 t wchar_t p[] = 
0x0050: 4C 22 31 32 33 61 62 63 EA B0 80 31 EB 82 98 31 L"123abc...1...1 
0x0060: EB 8B A4 22 3B 0A 20 20 20 20 73 69 7A 65 5F 74 ...";. size_t 
0x0070: 20 70 6C 65 6E 20 3D 20 77 63 73 6C 65 6E 28 70 plen = wcslen(p 
0x0080: 29 3B 0A 20 20 20 20 69 66 20 28 66 77 69 64 65 );. if (fwide 
0x0090: 28 73 74 64 6F 75 74 2C 20 31 29 20 3C 3D 20 30 (stdout, 1) <= 0 
0x00A0: 29 0A 20 20 20 20 7B 0A 20 20 20 20 20 20 20 20 ). {.   
0x00B0: 66 70 72 69 6E 74 66 28 73 74 64 65 72 72 2C 20 fprintf(stderr, 
0x00C0: 22 46 61 69 6C 65 64 20 74 6F 20 6D 61 6B 65 20 "Failed to make 
0x00D0: 73 74 64 6F 75 74 20 77 69 64 65 2D 6F 72 69 65 stdout wide-orie 
0x00E0: 6E 74 65 64 5C 6E 22 29 3B 0A 20 20 20 20 20 20 nted\n");.  
0x00F0: 20 20 72 65 74 75 72 6E 20 2D 31 3B 0A 20 20 20  return -1;. 
0x0100: 20 7D 0A 20 20 20 20 77 70 72 69 6E 74 66 28 4C }. wprintf(L 
0x0110: 22 53 74 72 69 6E 67 20 3C 3C 25 6C 73 3E 3E 5C "String <<%ls>>\ 
0x0120: 6E 22 2C 20 70 29 3B 0A 20 20 20 20 70 75 74 77 n", p);. putw 
0x0130: 63 28 4C 27 5C 6E 27 2C 20 73 74 64 6F 75 74 29 c(L'\n', stdout) 
0x0140: 3B 0A 20 20 20 20 77 70 72 69 6E 74 66 28 4C 22 ;. wprintf(L" 
0x0150: 4C 65 6E 67 74 68 20 3D 20 25 7A 75 5C 6E 22 2C Length = %zu\n", 
0x0160: 20 70 6C 65 6E 29 3B 0A 20 20 20 20 66 6F 72 20 plen);. for 
0x0170: 28 73 69 7A 65 5F 74 20 69 20 3D 20 30 3B 20 69 (size_t i = 0; i 
0x0180: 20 3C 20 73 69 7A 65 6F 66 28 70 29 2F 73 69 7A < sizeof(p)/siz 
0x0190: 65 6F 66 28 2A 70 29 3B 20 69 2B 2B 29 0A 20 20 eof(*p); i++). 
0x01A0: 20 20 20 20 20 20 77 70 72 69 6E 74 66 28 4C 22   wprintf(L" 
0x01B0: 43 68 61 72 61 63 74 65 72 20 25 7A 75 20 3D 20 Character %zu = 
0x01C0: 30 78 25 58 5C 6E 22 2C 20 69 2C 20 70 5B 69 5D 0x%X\n", i, p[i] 
0x01D0: 29 3B 0A 20 20 20 20 72 65 74 75 72 6E 20 30 3B );. return 0; 
0x01E0: 0A 7D 0A           .}. 
0x01E3: 

当使用GCC编译的输出是:

String <<123abc 
Length = 11 
Character 0 = 0x31 
Character 1 = 0x32 
Character 2 = 0x33 
Character 3 = 0x61 
Character 4 = 0x62 
Character 5 = 0x63 
Character 6 = 0xAC00 
Character 7 = 0x31 
Character 8 = 0xB098 
Character 9 = 0x31 
Character 10 = 0xB2E4 
Character 11 = 0x0 

注意该字符串是在零字节截断 - 我认为这是对robably系统中的一个bug,但似乎有点不太可能,我会设法找到一个对我的第一次尝试使用wprintf(),所以它更可能我做错了。

没错,在多字节UTF-8的源代码,字符串占据17个字节(8个单字节基本Latin-1字符和3个字符分别使用3个字节编码)。因此,源字符串上的原始strlen()将返回17个字节。

GCC的版本是:

i686-apple-darwin11-llvm-gcc-4.2 (GCC) 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00) 
Copyright (C) 2007 Free Software Foundation, Inc. 
This is free software; see the source for copying conditions. There is NO 
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. 

只是为了笑声,我试过clang,我得到不同的结果。编译使用:

clang -o row row.c -Wall -std=c99 

使用:

Apple clang version 2.1 (tags/Apple/clang-163.7.1) (based on LLVM 3.0svn) 
Target: x86_64-apple-darwin11.3.0 
Thread model: posix 

clang编译输出为:

String <<123abc가1나1다>> 

Length = 17 
Character 0 = 0x31 
Character 1 = 0x32 
Character 2 = 0x33 
Character 3 = 0x61 
Character 4 = 0x62 
Character 5 = 0x63 
Character 6 = 0xEA 
Character 7 = 0xB0 
Character 8 = 0x80 
Character 9 = 0x31 
Character 10 = 0xEB 
Character 11 = 0x82 
Character 12 = 0x98 
Character 13 = 0x31 
Character 14 = 0xEB 
Character 15 = 0x8B 
Character 16 = 0xA4 
Character 17 = 0x0 

所以,现在的字符串显示正确,但指定的长度为17个,而不是11.表面上,你可以选择错误 - 字符串看起来不错(在终端 - /应用程序/实用程序/终端 - 适应UTF8),但长度是错误的,或长度是正确的,但字符串没有正确显示。

我注意到,在这两种gccclangsizeof(wchar_t)为4

左手不明白右手在做什么。我认为有一种情况可能会以不同的方式声称两者都被打破。

+0

FWIW,如果你在调用'wprintf'之前调用'setlocale(LC_ALL,“en_US.UTF-8”);''''''''这将和gcc一起工作。这是因为'wprintf'尝试将生成的宽字符串转换为当前多字节语言环境,该语言环境默认为C语言环境,它不能处理非ASCII字符,因此它会停止转换。不知道为什么Clang不工作;它看起来没有正确识别源字符集,但'-finput-charset = UTF-8'选项似乎不起作用。 – 2012-02-12 03:56:48

+0

我添加了'#include '和'setlocale(LC_ALL,“”);'并且'gcc'的输出确实表现得'正确':'String << 123abc 1나1다>>',其余的和以前一样。当修改后的程序使用'clang'编译时,它产生了'String <<123abcê°1'X >>'(终端看起来与预览中的浏览器不同,尽管在保存注释之后它似乎更好; X是一个有4个剔出角的广场,我认为是国际货币符号)。这17个字符像以前一样打印出来。 '-finput-charset = UTF-8'似乎没有效果。 – 2012-02-12 04:45:56

+0

我认为Clang只是不支持非ASCII输入字符集。 [This thread](http://clang-developers.42468.n3.nabble.com/Supporting-finput-charset-fexec-charset-and-fwide-exec-charset-td3057650.html)意味着开始工作了仅在去年六月份。作为一种解决方法,您可以使用通用字符名称'\ uABCD',而不是将它们直接放在源代码中,至少从Clang 3.0开始。 – 2012-02-12 05:07:49

相关问题