我有一些数据日志行像有多个分隔符
Sep 10 12:00:01 10.100.2.28 t: |US,en,5,7350,100,0.076241,0.105342,-1,0,1,5,2,14,,,0,5134,7f378ecef7,fec81ebe-468a-4ac7-b472-8bd1ee88bfc2
Sep 10 12:00:01 10.100.2.28 t: |US,en,3,22427,100,0.05816,0.04018,-1,0,1,15,15,0,24383,cyclops.untd.com/,0,2796,2c5de71073,4858b748-121a-4f60-8087-97a8527d57c6
Sep 10 12:00:01 10.100.2.28 t: |us,en,6,16839,100,-1,-1,-1,17,1,0,-1,0,13819,d.tradex.openx.com/,0,-1,,4f805e3b-86b7-4dee-ae68-24e726cde954
猪负载问题没有,因为它是明显的有两个分隔符(逗号和空格)。虽然使用PigStorage功能,我想我只能使用其中的一个....这使我与另一个分隔符(空格或逗号)的另一个字符串chararray。
我想访问该chararray的每个成员,但不能这样做。我也曾尝试记号化,但是,让一个袋子,我不认为在一个袋子里的物品排序,从而可以单独访问...
僧侣任何帮助,将不胜感激......
Tanuj
偶然发现了这个莫名其妙的最佳方式 - 有实际上是一个相当可行的第三个选项,而不是实现一个整体,全面的'LOAD' UDF,人们可以使用流媒体。基本上,通过一个简单的[在这里插入fav lang]脚本或者只是简单的* nix命令来加载所有的东西作为行和流。这个特殊的例子可以很容易地通过流'tr',''\ t''和使用正确的模式来解决。 – TC1