0
当Spark接收数据时,是否有特定的情况需要通过驱动程序,然后从驱动程序通过工作人员?同样的问题适用于工人的直接阅读。Spark摄入路径:“Source to Driver to Worker”或“Source to Workers”
我想我只是试图找出导致一种或另一种情况的条件或情况,以及在每种情况下如何进行分区。
当Spark接收数据时,是否有特定的情况需要通过驱动程序,然后从驱动程序通过工作人员?同样的问题适用于工人的直接阅读。Spark摄入路径:“Source to Driver to Worker”或“Source to Workers”
我想我只是试图找出导致一种或另一种情况的条件或情况,以及在每种情况下如何进行分区。
如果你限制自己内置的方法则除非你创建一个本地一个分布式数据结构与方法,如:
SparkSession.createDataset
SparkContext.parallelize
数据总是直接访问由工作人员提供,但数据分发的细节将因来源不同而有所不同。
RDDS通常取决于Hadoop的输入格式,但火花SQL和数据源API,至少部分地独立,至少当涉及到配置,
这并不意味着数据总是适当地分布。在某些情况下(JDBC,流式接收器)数据可能仍然通过单个节点传输。