我在下面的格式已经数据:猪
(ID,描述)
1,xyz是什么。美国广播公司bcd &等。
1,xyz是东西。 Abc xyz &等。
2,abc是东西。 Abc xyz &等。
我需要按此格式输出:
标识,Word中
我尝试这样做:
A = LOAD './data.txt' USING PigStorage( '')作为(ID :int,desc:chararray); B = FOREACH A GENERATE ID,FLATTEN(STRSPLIT(desc,'[,?:; \ s]'));
这导致输出像这样:
1,XYZ,就是什么东西,ABC,BCD,所以,在
我要的是:
1,XYZ
1,是
1,什么
等等等等。
我该如何在猪身上做(无需编写UDF)?
PS:还试图:
B = FOREACH甲GENERATE ID,FLATTEN(datafu.pig.util.TransposeTupleToBag(STRSPLIT(DESC, '[&。,:;?\ S]')));