2014-01-18 47 views
0

我需要从文件系统1传输2,000个文件(30 TB未压缩数据)到文件系统2(通过gzip压缩时减少到约8 TB),通过100 MB /秒的带宽。gzip文件从一个文件系统到另一个最快的方式

是否有命令可以将gzip文件直接写入新文件系统,因此我不必传输30 TB数据,而只需将gzip文件复制到新系统中?

此命令是否有效,还是有其他的选择?

gzip -c /my/dir/foo.txt > /my/new/filesystem/foo.txt.gz 

换句话说,这个命令只会尝试复制压缩的gz文件,而不是整个文件,对吗?所以在/ my/new/filesystem /我的文件将使用1/3的空间比原来的/ my/dir /?

数据处于高性能群集中,因此我可以并行传输它们,但我不确定要使用多少个并行内核。如果我使用2,000个内核,我可能无法获得太多的速度,因为处理器的速度总是比100MB/sec的速度更快。

我正在寻找gzip命令,并寻求一种很好的并行策略来尽可能快地传输数据。

注1。新服务器(文件系统)连接到群集,它通过100 MB /秒的连接与旧文件系统进行通信。我称之为群集的是一个可以并行提交多个作业的计算中心(更多详细信息见注2)。我将数据传输到的新服务器是戴尔服务器,带有12个热插拔硬盘驱动器和2个有线硬盘驱动器的PE R515,LED和AMD Opteron 42XX Procs,4TB 7.2K RPM近线SAS 6Gbps 3.5英寸热插拔硬盘。更多信息:http://mindmeeting.blogspot.com/2014/01/server-information.html。操作系统是centOS 6.

注2。这是关于集群体系结构的更多信息。原始集群由分布在32个M1000机箱中的512个Dell PowerEdge M600刀片构建而成,每个刀片采用双至强E5410 2.3Ghz四核处理器,总共4096个内核。这些节点中的每一个都具有32 GB RAM以及DDR Infiniband和Gb以太网连接。它已经扩展到下面的架构,增加了专用访问,交互,专业和服务系统以及几个附加的计算节点组。群集映像基于RHEL 5,共享存储托管在几个nfs(即:主目录)和两个光盘实例(分别为高性能暂存和数据)上。

回答

2

的几点思考:

1)我想标杆 “rsync的” 与压缩,因为它是重新启动。您也可以并行执行多个“rsyncs”。

2)另外,磁盘是否连接到SAN?您可以将新文件系统安装到现有主机上,然后卸载并重新安装到新主机上?

3)另外,绝对不要低估装满磁带的卡车的带宽!如果您的LTO具有比您的网络更高的带宽。

有关您的系统的一些其他信息会对您有所帮助。 SAN,基础设施,服务器之间的距离,是否可以临时添加网络接口...

+0

我在帖子中回答。可悲的是我没有太多的信息。 – Dnaiel

相关问题