我有,其结构类似下面文件:猪处理不正确的数据
ID,姓名,地址
1,"Amrit,kumar",India
2,"Vaibhav,arora",USA
3,"Deepika,kumar",Germany
显然,如果我给pigStorage(“”)这三个字段将被分成4个字节,数据溢出。 替代方案:
我试着存钱罐罐子,但问题仍然存在,仍然是数据spills.Please找到脚本
A11 = LOAD 'File.csv.gz' USING org.apache.pig.piggybank.storage.CSVLoader() as (column:type)
我试着更换fucntiion以及我在下面35K行的变化并不适用于所有的rows.Any流汗走位如何将数据仍然在这种情况下,well.Column值溢出得到转移到下一个column.Please找到简称链接下方。
how can i ignore " (double quotes) while loading file in PIG?
我试图CSVEXCEL存储和CSV装载机为好。
请提出我在这里可以做的事情。我想要在单个列中具有名称值。
你可以做的是写一个正则表达式,将取代'所有情况下, '有说'|'除了是之间的那些' “ ”''像1,“ A,b”,C'应该成为'1 | “A,b” | C'那么你可以使用'PigStorage'加载数据。 – philantrovert
@ philantrovert我不能在这里改变原始文件。 – codaholic