2017-08-07 59 views

回答

1

如果你限制自己内置的方法则除非你创建一个本地一个分布式数据结构与方法,如:

  • SparkSession.createDataset
  • SparkContext.parallelize

数据总是直接访问由工作人员提供,但数据分发的细节将因来源不同而有所不同。

RDDS通常取决于Hadoop的输入格式,但火花SQL和数据源API,至少部分地独立,至少当涉及到配置,

这并不意味着数据总是适当地分布。在某些情况下(JDBC,流式接收器)数据可能仍然通过单个节点传输。