我有大量的数据在世界各地的4个或5个站点上保持同步,每个站点大约有半个TB。这种变化(增加或改变)大约每天1.4千兆字节,并且数据可能在四个站点中的任何一个上发生变化。什么是全球同步大量数据的最佳方式?
很大一部分(30%)的数据是重复的包(可能是打包的JDK),所以解决方案必须包含一种方法来获取这样的事实:在本地机器上存在这样的事情并抓住他们,而不是从另一个网站下载。
版本控制不是问题,这不是一个代码本身。
我只是有兴趣,如果有任何解决方案(最好是开源),接近这样的事情?
我的宝贝脚本使用rsync不会削减芥末了,我想做更复杂的智能同步。
感谢
编辑:这应该是基于UNIX :)
这*几乎*正确,我特别喜欢链接到网站。有了Unison,它不会先看解决方案的本地文件系统,比如在父目录或姐妹目录(我甚至想定义这个目录)。如果大小,名称,模式时间和校验和是相同的,那么就抓住它... – Spedge 2008-10-24 16:09:34
为什么不使用链接代替这些链接,而是复制这些JDK和什么?担心复制那些肯定不需要重复的东西似乎不太合适。 Unison将会同步链接......这样就可以工作,并且减轻一些空间需求和一些令人头痛的问题 – 2008-10-24 17:40:37