0
我试图将大量数据(几千个文件总计高达19TB)复制到我的Hadoop集群。我运行一个bash循环遍历文件的子集和多个圈我跑得较慢的一切副本Hadoop多输入命令放慢
for filename in /path/to/my/data/*.csv;
do cat $filename | ssh [email protected] "hadoop fs -put - /path/to/new/data/$filename";
done
当我走动集群上的数据会发生同样的问题,所以我不认为它正在复制导致问题的网络。
问题:Hadoop可以同时处理多个put
命令吗?我期待的是什么?
编辑:群集规格:9个服务器,每个服务器4个磁盘,每个节点24TB可用。大约六打命令。
你有多少个Hadoop集群中的服务器和磁盘?你运行了多少个并行'put'命令? – gudok
9个服务器,每个服务器4个磁盘,每个节点上可用24TB。大约六打“放”命令。 – Sal