2014-02-10 77 views
0

我正在使用this库在C++中执行从UTF16到UTF8的转换。UTF 16 UTF8使用C++中的utf8库

该示例提出了以下的方法来UTF16转换为UTF-8:

unsigned short utf16string[] = {0x41, 0x0448, 0x65e5, 0xd834, 0xdd1e}; 
vector<unsigned char> utf8result; 
utf16to8(utf16string, utf16string + 5, back_inserter(utf8result)); 
assert (utf8result.size() == 10);  

其中utf16to8的定义由下式给出:

template <typename u16bit_iterator, typename octet_iterator> 
octet_iterator utf16to8 (u16bit_iterator start, u16bit_iterator end, octet_iterator result); 

我有具有在UTF16的字符的字符数组。如果我不知道我的UTF16字符数组的大小(有效字符数),你能告诉我是否仍然可以使用这个库吗?

+1

等等,你的意思是“不知道尺寸”而不是“现在知道尺寸”吗? –

+0

@JohnZwinck,是 – Chani

+0

@JohnZwinck我用字符指针来初始化std :: string,现在我正在尝试使用字符串的迭代器。现在它开始工作了。 – Chani

回答

1

显然,对于存储在未知大小的容器中的数据,您无法做任何有意义的事情。你应该知道有多少元素。

0

仅供参考,您可以使用在C++ 11中引入的u16string。

#ifdef WIN32  
#include <codecvt> 
#else 
#include <uchar.h> 
#endif 

string toUTF8(const u16string& u16str) { 
    string result; 

#ifdef WIN32 
    wstring_convert<codecvt_utf8_utf16<char16_t>, char16_t> convertor; 
    result = convertor.to_bytes(u16str); 
#else 
    mbstate_t mbs; 

    mbrlen(NULL, 0, &mbs); /* initialize mbs */ 

    int length = 0; 
    char buffer [MB_CUR_MAX]; 

    for (int i= 0; i < u16str.size(); i++){ 
     length = c16rtomb(buffer, u16str[i], &mbs); 

     if ((length == 0) || (length>MB_CUR_MAX)){ 
      break; 
     } 

     for (int j = 0; j < length;j++){ 
      result += buffer[j]; 
     } 
    } 
#endif 

    return result; 
}