是否有可能让本地文件作为输入,但处理它分发? 我在我的代码中有sc.textFile(file:///path-to-file-locally),我知道文件的确切路径是正确的。然而,我仍然越来越 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe
例如,我的Spark集群有100个节点(工作人员),当我运行一个作业时,我只希望它在大约10个特定节点上运行,我应该如何实现这一点。顺便说一句,我正在使用Spark独立模块。 为什么需要上述要求: One of my Spark job needs to access NFS, but there are only 10 nodes were
permitted to access NFS, s
我刚刚开始使用的Spark群集中看到了非常奇怪的行为。用于记录 正常行为是当一个运行人会看到日志消息,像这样: INFO 2016-11-04 13:14:10,671 org.apache.spark.executor.Executor: Finished task 227.0 in stage 4.0 (TID 3168). 1992 bytes result sent to driver