我已阅读this SO post,但我仍然需要随机。如何将列表保存到spark中?
我有数据集,就像如下:
123456789
23458ef12
ef12345ea
111223345
我想从它那里得到一些ranom线,所以我写了如下pyspark代码:
rdd = spark_context.textFile('a.tx').takeSample(False, 3)
rdd.saveAsTextFile('b.tx')
所以takeSample名录返回,它会产生一个错误:
'list' object has no attribute 'saveAsTextFile'
'takeSample()'返回数组。你需要并行化并保存它。 – mrsrinivas