2016-11-18 31 views
0

我在python numpy的阵列,我想重复自己,所以我用 tile(array(x), (2, 1))是否有相当于Spark中的python磁贴?

此,给出一个数组[1,2,3]将返回[[1,2,3],[1,2,3]]

但pySpark我有一个pipelineRDD代替。 这是否有相应的功能? 我无法找到它。

谢谢

回答

1

有没有相同的:

  • RDD是本地对象的分布式集合。
  • RDD不能包含另一个RDD。
  • 本地对象仅限于内存大小,对存储完整RDD的内容无用。

可以使用重复RDD在一个维度:

sc.union([rdd for _ in range(n)) 

这相当于

np.tile(a, n) 

其中n是一个标量。

相关问题