2
我会上传50GB关于Hadoop集群的数据。 但现在我想删除数据文件的第一行。 如果我手动删除数据&更改,这很耗时。然后在HDFS上再次上传。 请回复我。如何从Hadoop中的hdfs文件中删除一些数据
我会上传50GB关于Hadoop集群的数据。 但现在我想删除数据文件的第一行。 如果我手动删除数据&更改,这很耗时。然后在HDFS上再次上传。 请回复我。如何从Hadoop中的hdfs文件中删除一些数据
HDFS文件是不可变的(for all practical purposes)。
您需要上传修改后的文件。您可以使用进行近身份转换的M/R作业以编程方式进行更改,例如。运行一个streaming外壳脚本,它的确如此sed
,但其要点是你需要创建新的文件,HDFS文件不能被编辑。
谢谢你Remus。我们可以用任何工具编辑HDFS文件吗?像HBase –