apache-spark-standalone

1热度

2回答

是否有可能让本地文件作为输入，但处理它分发？我在我的代码中有sc.textFile(file:///path-to-file-locally)，我知道文件的确切路径是正确的。然而，我仍然越来越 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe

1热度

1回答

找不到火花应用程序的输出

我有，我可以成功启动集群，至少这是基于Web的用户界面中，我看到这个信息 URL: spark://Name25:7077 REST URL: spark://Name25:6066 (cluster mode) Alive Workers: 10 Cores in use: 192 Total, 0 Used Memory in use: 364.0 GB Total, 0.0 B Us

1热度

1回答

如何在特定节点上运行Spark作业

例如，我的Spark集群有100个节点（工作人员），当我运行一个作业时，我只希望它在大约10个特定节点上运行，我应该如何实现这一点。顺便说一句，我正在使用Spark独立模块。为什么需要上述要求： One of my Spark job needs to access NFS, but there are only 10 nodes were permitted to access NFS, s

1热度

1回答

谁在Spache Spark中将分区加载到RAM中？

我有这个问题，我一直无法找到答案。我使用下列行到PySpark应用内加载数据： loadFile = self.tableName+".csv" dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(loadFile) 我的群集配置如下：我使用的火花簇与

0热度

1回答

Spark日志不会返回给驱动程序，消息只存在于工作人员

我刚刚开始使用的Spark群集中看到了非常奇怪的行为。用于记录正常行为是当一个运行人会看到日志消息，像这样： INFO 2016-11-04 13:14:10,671 org.apache.spark.executor.Executor: Finished task 227.0 in stage 4.0 (TID 3168). 1992 bytes result sent to driver

0热度

1回答

Spark集群中Worker节点上对象的早期初始化

我在独立集群中使用Drools with Spark。我想在启动时的所有工作节点上加载知识会话，即在地图缩小任务之前。我试过从驱动程序传递Statefull会话到从节点，但它不工作。由于这个原因，我的第一份工作大约需要900毫秒才能将规则添加到知识生成器中。

0热度

1回答

并非所有在Spark Standalone集群中使用的节点

我使用两个虚拟机制作了Spark Standalone集群。在第一个VM（8个内核，64 GB内存）中，我使用命令 bin/spark-class org.apache.spark.deploy.master.Master手动启动了主控。在第二台VM（8核，64 GB内存）中，我使用 bin/spark-class org.apache.spark.deploy.worker.Worker s

2热度

1回答

spark rest api/api/v1给出了不允许的方法

我已经部署了一个spark独立集群，但是当我尝试访问其他api的某些应用程序信息时。我尝试访问的网址是http://ip:4040/api/v1。链接的REST API文档 - >http://spark.apache.org/docs/latest/monitoring.html#rest-api 它说方法不被允许我认为这是一些配置问题什么的。在此先感谢您的帮助。

1热度

1回答

java.lang.IllegalStateException：找不到任何编译目录

我想在Intellij中运行Spark主和Worker。我已经成功启动了火花大师和工作人员。工人也没有任何问题连接到主人。我可以通过查看日志和触发Web UI来确认这一点。但是当我尝试在这个设置上运行任何应用程序时，问题就开始了。当前，我试图在此设置上运行spark-shell，但是当它试图掌握时，我在主服务器上收到了一些错误消息，并在该工作服上发生了IlligalStateException。

0热度

1回答

KafkaProducer在卡夫卡的Spark集成

广播可变我试图从卡夫卡到阅读和使用星火推到另一个数据kakfa队列。我最初的方法是创建KafkaProducer对象在RDD的分区中的每个记录，它的工作不错，但在性能方面它是非常糟糕的。所以我试图用广播变量概念，使KakfaProducer广播变量将它传递给执行人。它结束了异常线程“main” com.esotericsoftware.kryo.KryoException：java.util