2014-09-04 59 views
1

我是通过Hadoop-要明确的指导和我碰到这些行:RDBMS VS映射精简

正常化带来的问题的MapReduce的,因为它使读出记录非本地操作,和中央的一个假设 MapReduce所做的是可以执行(高速) 流读写。

有人能解释这些行在外行语言中究竟意味着什么吗?

我知道什么是标准化。它如何使读取记录非本地 操作?参考hadoop的非本地操作的含义是什么?

回答

2

在hadoop中,本地操作是指在需要使用的数据正在存储的同一物理位置执行代码。

当你规范化你的数据时,你基本上把它分开了。如果这个“分割”数据分布在两个物理不同的区域,你突然有非本地操作。

+0

好的。因此,关键是Hadoop只需通过复制制作数据的副本,然后与RDBMS规范化相比,它可以以更快的速度处理数据。 – CodeReaper 2014-09-04 06:20:27

+0

尽管hadoop进行复制,但map-reduce的真正目的是可以拆分数据集并在各自的机器上并行处理每个部分。 – Mike 2014-09-04 13:45:49

+1

在多台机器上拆分数据的能力称为水平缩放。 – Mike 2014-09-04 13:46:26