2017-04-04 41 views
0

如何将.dat文件加载到配置单元或cloudera或hdfs?如何将.dat文件加载到配置单元或hdfs?

是否有必要通过使用pig将此格式转换为结构化格式?

如果是的话有人可以给猪脚本将其转换为结构数据吗?

我的数据是这样的,当我在记事本中打开.dat文件++

Americas¤AME ¤ZONE¤ ¤¤¤Active¤ 
Asia-Pacific¤APA ¤ZONE¤ ¤¤¤Active¤ 
Europe¤EUR ¤ZONE¤ ¤¤¤Active¤ 
Middle East, India and Africa¤MAI ¤ZONE¤ ¤¤¤Active¤ 
Unidentified¤999 ¤ZONE¤ ¤¤¤Active¤ 
Afghanistan¤AF ¤COUNTRY¤ ¤MAI ¤ZONE¤Active¤3 
Albania¤AL ¤COUNTRY¤ ¤EUR ¤ZONE¤Active¤1 
Algeria¤DZ ¤COUNTRY¤ ¤MAI ¤ZONE¤Active¤3 
American Samoa¤AS ¤COUNTRY¤ ¤APA ¤ZONE¤Active¤3 
Andorra¤AD ¤COUNTRY¤ ¤EUR ¤ZONE¤Active¤1 
Angola¤AO ¤COUNTRY¤ ¤MAI ¤ZONE¤Active¤1 
+0

'.dat'不表示格式。您的数据似乎被分隔。请在您的文章中添加'od -Anone -N50 -w50 -tx1a yourfile'的结果 –

回答

0

你只是想加载HDFS的数据?现在

hadoop fs -put ./myfile.dat /home/hadoop/dir

您的文件在HDFS中,你可以使用分隔符在您的数据用它在你的代码。 刚才检查与 '¤'

cat spch.dat | awk -F'¤' '{print $1,$2,$3,$4,$5}' 

美洲AME ZONE
亚太APA ZONE
欧洲EUR ZONE
中东,印度和非洲的MAI ZONE

// Pig 
A = LOAD '/hadoop/dir/myfile.dat' usig PigStorage('¤') as (field1,filed2 ..); 
// use the fields 
数据
相关问题