2017-08-11 80 views
0

喜官方星火文档状态:本地磁盘配置

虽然星火可以执行存储大量的计算,它仍然 使用本地磁盘来存储不适合在RAM中的数据,以及 保留阶段之间的中间输出。我们建议每个节点配置4-8个 磁盘,配置不使用RAID(就像分开安装 分)。在Linux中,使用noatime选项装入磁盘以减少不必要的写入。在Spark中,将spark.local.dir变量 配置为本地磁盘的逗号分隔列表。如果您正在运行HDFS,则可以使用与HDFS相同的磁盘。

  • 我不知道什么是4-8

它是并行写入目的每个节点?我不确定要理解为什么没有解释。

  • 我不知道这个:“如果你正在运行HDFS,它的优良使用 相同的磁盘作为HDFS”。

任何想法,在这里是指......

回答

1

目的使用4-8 RAID磁盘镜像添加冗余,以防止硬件级故障的情况下丢失数据的分区。在HDFS的情况下,RAID提供的冗余不再需要,因为HDFS通过节点之间的复制来处理它。 Reference

+0

我可能不明白你的意思,但官方文档说没有RAID和你的评论谈到有RAID的磁盘。如果我理解的很好,4到8个磁盘没有或没有hdfs。因此,你的评论添加了一些更多的困惑,虽然链接是有趣的下标 – MaatDeamon

+0

如果执行者有8个任务,那么他最好有8个磁盘?镜像分区使用?? – MaatDeamon

+0

如果你有适当的复制级别配置hdfs没有要求raid。 – FaigB