有没有办法控制集群中节点间火花分区的分布？

我有一个8节点群集和予加载从这样的JDBC源的两个dataframes：有没有办法控制集群中节点间火花分区的分布？

positionsDf = spark.read.jdbc(
     url=connStr, 
     table=positionsSQL, 
     column="PositionDate", 
     lowerBound=41275, 
     upperBound=42736, 
     numPartitions=128*3, 
     properties=props 
    ) 
positionsDF.cache() 

varDatesDf = spark.read.jdbc(
     url=connStr, 
     table=datesSQL, 
     column="PositionDate", 
     lowerBound=41275, 
     upperBound=42736, 
     numPartitions=128 * 3, 
     properties=props 
    ) 
varDatesDF.cache() 

res = varDatesDf.join(positionsDf, on='PositionDate').count()

我可以一些从隔板均匀地分布在集群节点的分布式应用程序UI的存储标签。但是，我不能说的是它们是如何分布在节点上的。理想情况下，两个数据帧都将以这样的方式分发，即连接总是本地的节点，或者对执行者来说更好。

换句话说，包含PositionDate =“01 Jan 2016”的记录的positionsDF dataframe分区是否与包含PositionDate =“01 Jan 2016”的记录的varDatesDf数据框分区位于同一执行器内存空间中？他们会在同一个节点上吗？或者它只是随机的？

有什么方法可以查看哪些节点在哪个节点上？

在整个节点上，火花是否以确定性的方式使用列键来创建分区？他们将始终是节点/执行器本地？

来源

2016-11-16 ThatDataGuy

将所述positionsDF数据帧分区包含与PositionDate =“2016年1月1日”的记载，位于同一执行程序的存储器空间为包含与PositionDate =“2016年1月1日”

记录varDatesDf数据帧分区

它不会一般。即使数据是共同分区的（它不在这里），它并不意味着共址。

有什么方法可以查看哪些节点在哪个节点上？

这个关系不需要随着时间的推移而被修正。任务可以例如重新安排。您可以使用不同的RDD技巧（TaskContext）或数据库日志，但它不可靠。

将以这样的方式进行分配，即连接总是本地的节点，或者甚至对执行者来说更好。

调度程序有其内部优化和低级API允许您设置节点首选项，但这种类型的事情在Spark SQL中是不可控制的。

来源

2016-11-17 07:15:44

有没有办法控制集群中节点间火花分区的分布？

回答

相关问题