我是新来的火花及其相关概念,所以请善待我并帮助我澄清我的疑惑,我会给你一个例子来帮助你理解我的问题。是否可以在一个分区的火花内创建并行操作?
我有一个javaPairRDD“RDD”,其中包含像
Tuple2 <Integer,String[]>
元组,例如,假设字符串[]长度= 3,意味着它包含除了键3层的元件,我想要做什么是更新向量的每个元素使用3个RDD和3个操作,“R1”和“operation1”用于修改第一个元素,“R2”和“operation2”用于修改第二个元素,“R3”和“operation3”用于修改第三个元素,
R1,R2和R3是提供元素的新值的RDD
我知道火花将数据(在本例中是“rdd”)划分为多个分区,但我所问的是:是否可以在同一分区中同时执行不同的操作?
根据我的例子,因为我有3个操作,这意味着我可以在同一时间采取3元组,而不是只考虑一个操作它:
,我想它是处理:(吨指的时间)
at t=0:
*tuple1=use operation1 to modify the element 1
*tuple2=use operation2 to modify the element2
*tuple3=use operation3 to modify the element 3
在t = 1:
*tuple1=use operation2 to modify the element 2
*tuple2=use operation3 to modify the element3
*tuple3=use operation1 to modify the element 1
在t = 2:
*tuple1=use operation.3 to modify the element 3
*tuple2=use operation1 to modify the element1
*tuple3=use operation2 to modify the element 2
完成更新3个元组后,我拿别人(3元组)从同一partion对待他们,等等..
请善待它只是掠过我脑海一个念头,我想知道是否可以做到这一点,谢谢你的帮助
看看'mapPartitions' - 它可能会帮你一点 – Alec
我低估了,因为我认为你需要花更多的时间来阅读火花文档和概念。在这个状态下,这个问题几乎没有意义。 – C4stor