3
我在4节点集群上运行相当大的任务。我正在阅读来自单个表格的4 GB过滤数据,并运行NaïveBaye的培训和预测。尽管HDFS在所有机器上运行,但我的HBase地区服务器运行在与公平调度模式下运行的火花群集分离的单台机器上。带火花的任务调度
执行时,根据群集上活动任务的数量,我正在经历奇怪的任务分配。我发现只有一个活动任务或至多两个任务在任何时间点在一台/两台机器上运行,而另一台机器处于空闲状态。我的期望是,RDD中的数据将在所有节点上进行划分和处理,以进行诸如count和distinct等操作。为什么所有节点都不能用于单个作业的大型任务?在单独的机器上安装HBase与这有什么关系?