1

我知道spark内置的方法可以有分区和读取大块文件并使用textfile分配为rdd。 但是,我正在阅读这个自定义加密文件文件,其中火花不支持自然。我能想到的一种方法是改为读取inputstream并加载多行并分发给执行程序。继续阅读,直到所有文件被加载。所以没有执行器会由于内存不足错误而炸毁。火花能做到这一点吗?Spark将大文件读入输入流

回答

0

你可以尝试lines.take(n)为不同的n找到你的群集的限制。

spark.readStream.option("sep", ";").csv("filepath.csv")