2016-12-26 69 views
2

我已阅读this SO post,但我仍然需要随机。如何将列表保存到spark中?

我有数据集,就像如下:

123456789 
23458ef12 
ef12345ea 
111223345 

我想从它那里得到一些ranom线,所以我写了如下pyspark代码:

rdd = spark_context.textFile('a.tx').takeSample(False, 3) 
rdd.saveAsTextFile('b.tx') 

所以takeSample名录返回,它会产生一个错误:

'list' object has no attribute 'saveAsTextFile' 
+0

'takeSample()'返回数组。你需要并行化并保存它。 – mrsrinivas

回答

3

takeSample()返回数组。你需要并行化并保存它。

rdd = spark_context.textFile('a.tx') 
spark_context.parallelize(rdd.takeSample(False, 3)).saveAsTextFile('b.tx') 

但最好的办法是sample()将返回RDD

rdd.sample(False, 3).saveAsTextFile('b.tx') 
+0

@thinkerou:让我知道如果你在执行上面的代码时遇到任何问题。 – mrsrinivas

+0

谢谢@ mrsrinivas,你说得对,我会用样品。 – thinkerou

相关问题