我有一个Spark独立群集,有2个工作节点和1个主节点。Spark独立群集无法读取本地文件系统中的文件
使用spark-shell,我能够从本地文件系统的文件中读取数据,然后做了一些转换并将最终的RDD保存在/ home/output中(假设) RDD已成功保存,但仅在一个工人节点和主节点上只有_SUCCESS文件在那里。
现在,如果我想从/ home/output读取这个输出数据,我没有收到任何数据,因为它在master上获得0数据,然后我假设它没有检查其他工作节点。
如果有人能够说明为什么Spark没有从所有工作节点读取或者Spark用于从工作节点读取数据的机制是什么,那将是非常棒的。
scala> sc.textFile("/home/output/")
res7: org.apache.spark.rdd.RDD[(String, String)] = /home/output/ MapPartitionsRDD[5] at wholeTextFiles at <console>:25
scala> res7.count
res8: Long = 0
我试过,但没有工作。目前的情况是,master有_SUCCESS文件的输出文件夹,worker节点在“output”文件夹中有剩余的部分文件。 现在,当我阅读这个输出文件夹时,它给了我空白,我认为它只读取了主文件。 –
可以请你提供初始步骤,使用你写的/ home/output? – thinkinbee