2015-10-04 35 views
-1

我有一个大文本文件(3 GB),它是DNA参考。我想把它分成几部分,以便我可以处理它。如何处理火花中的大文本文件?

所以我想知道如何用Spark分割文件。我目前只有一个节点具有4 GB的内存

+0

如果您不指定分区,您现在面临的问题是什么? – tuxdna

回答

1

听起来像要将文件加载为多个分区。如果你的文件是可拆分的(文本文件,快速,序列等),你可以简单地提供它将被加载的分区数量sc.textFile(inputPath, numPartitions)。如果您的文件不可拆分,它将作为一个分区加载,但您可以在加载的RDD上调用.repartition(numPartitions)将其重新分区到多个分区。