2015-06-30 62 views
0

官方指导分布式存储说:为星火

如果使用本地文件系统的路径,文件也必须在 工作器节点上相同的路径访问。将文件复制到 所有工作人员或使用网络安装的共享文件系统。

Spark是否需要某种分布式文件系统来进行随机播放?或者我可以复制所有节点上的输入,而不用打扰NFS,HDFS等?

+0

如果您可以将所有数据复制到所有节点上,为什么您需要Spark?在一台计算机上本地处理数据可能会更快更轻松。只是一个建议。 – kostya

回答

1

Spark不依赖分布式文件系统进行随机播放。与传统的映射缩减不同,Spark不需要写入HDFS(或类似的系统),而是通过跟踪数据沿袭并在发生节点故障时通过重新计算任何数据节点。

+0

因此,执行程序之间的所有数据传输仅使用网络执行,且没有分布式存储? – Osmin

+0

执行者之间是的 – Holden