0
我想读。广州文件的火花内容/斯卡拉在数据帧/ RDD使用下面的代码读数压缩文件中的火花与斯卡拉
val conf = new SparkConf()
val sc = new SparkContext(conf)
val data = sc.wholeTextFiles("path to gz file")
data.collect().foreach(println);
的.gz文件是28 MB,当我使用此命令执行火花提交
spark-submit --class sample--master local[*] target\spark.jar
它在控制台中给出Java Java堆空间问题。
这是阅读的.gz文件的最好方法,如果是的,我怎么能解决Java堆错误的问题。
感谢
您的解决方案是在[阅读多个压缩文件](https://stackoverflow.com/questions/38635905/reading-in-multiple-files-compressed-in-tar-gz-archive-into-spark) –
The原来的答案其实这里https://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark – eliasah
的[从星火压缩整个阅读文本文件]可能的复制( https://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark) – mrsrinivas