2017-04-23 81 views

回答

0

您可以在数据框上使用randomSplit方法。

import scala.util.Random 
val df = List(0,1,2,3,4,5,6,7,8,9).toDF 
val splitted = df.randomSplit(Array(1,1,1,1,1)) 
splitted foreach { a => a.write.format("csv").save("path" + Random.nextInt) } 

我使用Random.nextInt有一个唯一的名称。如有必要,您可以在其中添加其他逻辑。

来源:

http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset

How to save a spark DataFrame as csv on disk?

https://forums.databricks.com/questions/8723/how-can-i-split-a-spark-dataframe-into-n-equal-dat.html

编辑:另一种方法是使用限制和除了:

var input = List(1,2,3,4,5,6,7,8,9).toDF 
val limit = 2 

var newFrames = List[org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]]() 
var size = input.count; 

while (size > 0) { 
    newFrames = input.limit(limit) :: newFrames 
    input = input.except(newFrames.head) 
    size = size - limit 
} 

newFrames.foreach(_.show) 

结果列表中的第一个元素可能包含比列表的其余部分少的元素。

+0

@ Steffen ..我的要求是每个csv有固定的行数。此外,如果csv中的记录数量不固定。如果主文件具有10M行,则应创建10个csv的1M记录。同样,对于20M记录,应创建20个1M记录的csv。这个例子不足以解决这个问题。 – Nitish

+0

http://stackoverflow.com/questions/41223125/how-to-split-a-spark-dataframe-with-equal-records这提供了一个关于如何做到这一点的scala代码的例子。分区数量应该是数据集的长度除以每个分区的行数。 –

+0

@Nitish我添加了一种方法,可以解决您的问题基于这个问题的答案:https://stackoverflow.com/questions/44135610/spark-scala-split-dataframe-into-equal-number-of-rows –