1
我的意思是,2个选项: 1.在Hadoop集群上安装HBase,这也是离线计算,所以只能有1个hadoop集群。 2.为离线计算安装Hadoop集群,然后仅安装另一个Hadoop集群以使HBase使用其HDFS。与分别安装HBase和Hadoop一起安装HBase + Hadoop有什么优点和缺点?
所以2个选项是:一个是集成的集群,另一个实际上是2个集群。
对于这2个选项,有什么优点&?
我的意思是,2个选项: 1.在Hadoop集群上安装HBase,这也是离线计算,所以只能有1个hadoop集群。 2.为离线计算安装Hadoop集群,然后仅安装另一个Hadoop集群以使HBase使用其HDFS。与分别安装HBase和Hadoop一起安装HBase + Hadoop有什么优点和缺点?
所以2个选项是:一个是集成的集群,另一个实际上是2个集群。
对于这2个选项,有什么优点&?
选项1:集成集群。
优点:读取或写入HBase的MapReduce将作为数据局部性更高效。
缺点:HBase地区服务器会降低机器(Datanode和TaskTracker)的性能,因为它需要容纳一些CPU和内存。如果有很多MapReduce作业,HBase延迟可能是秒。因此,如果您希望及时制作HBase响应,则需要更多工作(例如,使用memcache来提高读取性能)。
选项2:2个群集。
Prons:HBase区域服务器不会影响HDFS日期节点和TaskTracker的性能。
缺点:如果MapReduce需要访问HBase,需要远程读写数据。该选件还需要更多的机器。