我是Hadoop的新手。请纠正我,如果我问废话,并帮助我解决这个问题:)。Hadoop多节点群集
我安装并配置了一个两节点hadoop集群(纱线)。
- 主节点:2TB HDD,4GB RAM
- 从属节点:500GB HDD,4GB RAM
的Datanode: 主节点仅(不保持复制的数据在从节点)
映射/减少: 主节点&从节点。
在10TB数据中,我上传了2TB到主节点(数据节点)。我只使用从节点进行Map/Reduce(使用从节点的100%CPU来运行查询)。
我的问题:
如果我添加一个新的2TB硬盘到主节点,我希望更多的上传2TB到主节点,我该如何使用这两种硬盘(旧硬盘和新的硬盘数据在主)?有没有办法在hdfs-site.xml中提供多个硬盘路径?
我是否需要在从节点中添加4TB硬盘(使用主节点中的所有数据)才能使用从节点的100%CPU?或者从机可以从主机访问数据并运行Map/Reduce作业?
如果我添加4TB到奴隶并上传数据到hadoop。这将使主复制(复制)的任何复制?我可以访问从站的主硬盘和主硬盘的主硬盘中的所有数据吗?如果我这样做,查询是否使用两个节点的100%CPU?
总的来说,如果我有10TB的数据。什么是配置Hadoop两节点群集的正确方法?我应该使用什么规范(对于master和datanode)来快速运行Hive查询?
我被卡住了。我真的需要你的建议和帮助。
感谢提前一吨。