如何处理火花中的大文本文件？

-1

我有一个大文本文件（3 GB），它是DNA参考。我想把它分成几部分，以便我可以处理它。如何处理火花中的大文本文件？

所以我想知道如何用Spark分割文件。我目前只有一个节点具有4 GB的内存

2015-10-04 Darshak Bhatti

如果您不指定分区，您现在面临的问题是什么？ – tuxdna

听起来像要将文件加载为多个分区。如果你的文件是可拆分的（文本文件，快速，序列等），你可以简单地提供它将被加载的分区数量sc.textFile(inputPath, numPartitions)。如果您的文件不可拆分，它将作为一个分区加载，但您可以在加载的RDD上调用.repartition(numPartitions)将其重新分区到多个分区。

来源

2015-10-04 18:46:40

如何处理火花中的大文本文件？

回答

相关问题