2015-12-03 142 views
0

是否有任何Serde可用于支持具有Unicode字符的配置单元表。我们可能会以UTF-8,UTF-18和UTF-32格式存档。只是我们正在寻找支持日语,中文等不同语言的配置表。我们应该可以将不同的语言数据加载到配置单元表Hive支持Unicode字符

回答

0

Hive只能读取和写入UTF-8文本文件。
对于其他字符集,应将其转换为UTF-8。
语法转换

hive> CREATE TABLE mytable(name, datatype) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPERTIES("serialization.encoding"='FORMAT'); 

转换可以用iconv做,但它仅支持文件比16G小。 语法:

>iconv -f encoding -t encoding inputfile