6
有没有人试图测试跨多个数据中心的数据节点的性能?特别是在有小管道的网络上。我似乎无法找到太多的信息,我发现的信息要么是旧的(大约2010年),要么是专有的(就像DataStax有些东西)。我知道Hadoop支持机架感知,但就像我说过的我没有看到任何有关为多个数据中心调整系统的文档。分布在多个数据中心的数据节点
有没有人试图测试跨多个数据中心的数据节点的性能?特别是在有小管道的网络上。我似乎无法找到太多的信息,我发现的信息要么是旧的(大约2010年),要么是专有的(就像DataStax有些东西)。我知道Hadoop支持机架感知,但就像我说过的我没有看到任何有关为多个数据中心调整系统的文档。分布在多个数据中心的数据节点
我已经尝试了12 x DataNode集群以2:1的比例排列,两个数据中心之间相距约120英里。在2个1GbE管道中,数据中心之间的延迟时间为4ms。
在现场A配置2个机架,在现场B配置1个机架。每个“机架”有4个机器。我们基本上是将网站B作为“DR”网站进行测试。复制因子设为3.
长话短说,它的工作原理,但表现真的很糟糕。您必须在源代码上使用压缩,映射并减少输出以缩小写入I/O,并且如果站点之间的链接用于其他任何内容,则在传输数据时将会超时。 TCP窗口将有效地将我们的传输限制在4MBps左右,而不是1GbE产品线上潜在的100MBps +。
节省您的头痛,只需使用distcp作业来复制数据!