2016-10-14 48 views
0

我想使用猪脚本在HDFS中删除我的文件的第一行和最后一行/最后一行。我试图实现这个使用排名和它的工作,但我应该知道去除它的最后排名数字,但我的文件是动态的,它可以有更多或更少的行,对于这种情况下,我无法找到任何东西。请帮助使用猪脚本删除文件的第一行和最后一行

编辑: 我的数据是巨大的,所以我不能创建架构并不能组他们使用MIN()如何实现这一目标?

回答

2

一旦您有Rank可用,您可以通过MIN和MAX eval函数的平均值得到您想排除的第一个和最后一个排名(即文件的第一行和最后一行)。这样你就不需要对排名过滤器进行硬编码。

  1. Eval function MAX
  2. Eval function MIN

注:这是猪的版本0.16.0。

+0

有没有其他办法来实现这一目标? – animal

+0

我的数据很大,我无法创建模式并对它们进行分组。在这种情况下,Min不适合我。 – animal

+1

警告,这将删除您的负载的第一行或最后一行。如果使用load将文件加载到多个文件的目录中,则需要更复杂的技巧才能获得理想的结果! –

相关问题