2014-11-15 54 views
3

我在Spark RDD中有一个数据,我想将它分成两部分,比如0.7。例如,如果RDD看起来是这样的:如何在火花中将rdd数据分成两部分?

[1,2,3,4,5,6,7,8,9,10] 

我想把它分成rdd1

[1,2,3,4,5,6,7] 

rdd2

[8,9,10] 

随着规模0.7。 rdd1rdd2应该每次都是随机的。我想是这样的:

seed = random.randint(0,10000) 
rdd1 = data.sample(False,scale,seed) 
rdd2 = data.subtract(rdd1) 

和它的作品,但有时当我的数据中包含dict我遇到了一些问题。例如用数据如下:

[{1:2},{3:1},{5:4,2;6}] 

我得到

TypeError: unhashable type: 'dict'

回答

3

RDDs两者

rdd = sc.parallelize(range(10)) 
test, train = rdd.randomSplit(weights=[0.3, 0.7], seed=1) 

test.collect() 
## [4, 7, 8] 

train.collect() 
## [0, 1, 2, 3, 5, 6, 9] 

DataFrames

df = rdd.map(lambda x: (x,)).toDF(["x"]) 

test, train = df.randomSplit(weights=[0.3, 0.7]) 

提供randomSplit方法,其可以在这里使用。