0
我正在更改hdfs目录结构。 目前的一个情况如下:在hdfs中移动和合并目录
.../customers/customers1/2016-05-16-10/lots_of_files1.csv
.../customers/customers2/2016-05-16-10/lots_of_files2.csv
.../customers/customers3/2016-05-16-10/lots_of_files1.csv
.../customers/customers4/2016-05-16-10/...
.../customers/customers5/2016-05-16-10/...
.../customers/customers6/2016-05-16-10/...
.../customers/customers7/2016-05-16-10/...
我想摆脱的客户(1-7):
.../customers/2016-05-16-10/lots_of_files1.csv
.../customers/2016-05-16-10/lots_of_files2.csv
.../customers/2016-05-16-10/lots_of_files1(1).csv
我想用毒蛇咬伤蟒蛇HDFS库,但很多边缘出现以下情况: 1.同一日期可能会多次出现。 2. csv的名称可能会多次出现,但它的数据是不同的,并且必须移动。
你如何以最干净的方式实现它?
它如何处理具有相同名称的csvs? @vgunnu – TheSilence
将该文件夹中的所有文件合并到新文件中。与Hive类似 – vgunnu