Spark将大文件读入输入流

我知道spark内置的方法可以有分区和读取大块文件并使用textfile分配为rdd。但是，我正在阅读这个自定义加密文件文件，其中火花不支持自然。我能想到的一种方法是改为读取inputstream并加载多行并分发给执行程序。继续阅读，直到所有文件被加载。所以没有执行器会由于内存不足错误而炸毁。火花能做到这一点吗？Spark将大文件读入输入流

来源

2017-03-26 Hao Chen

你可以尝试lines.take（n）为不同的n找到你的群集的限制。
或

spark.readStream.option("sep", ";").csv("filepath.csv")

来源

2017-04-02 02:00:38

Spark将大文件读入输入流

回答

相关问题