2016-04-02 48 views
0

我刚开始使用Spark Apache。我在本地计算机(Windows 10,Intel Core i5,8 GB RAM)中对其进行了测试,并且一切正常。当我试图手动启动一个簇我有一个错误,如在以下附加的图像中: enter image description here未能在Spark中手动启动集群

信息从日志(C:\火花\日志\火花 - org.apache.spark.deploy.master.Master -1- XXXXXX.out:

星火命令:C:\ Program Files文件\的Java \ jdk1.8.0_72 \ BIN \ java命令C:\星火/ conf目录\; C:\星火/ lib目录/ spark-assembly-1.6.0-hadoop2.6.0.jar; C:\ Spark \ lib \ datanucleus -api -jdo-3.2.6.jar; C:\ Spark \ lib \ datanucleus-core-3.2.10.jar ; C:\ Spark \ lib \ datanucleus-rdbms-3.2.9.jar -Xms1g -Xmx1g org.apache.spark.deploy.master.Master --ip XXXXXX --port 7077 --webui-port 8080

我使用这些资源来解决这个问题,但没有成功:
Spark Standalone Mode
How to Setup Local Standalone Spark Node
Setup a Apache Spark cluster in your single standalone machine

感谢您的任何反馈。

+0

您能否提供日志? – PinoSan

+0

已被添加到我的文章。 – Hawk360

+0

您应该提供有关错误消息的更多详细信息。你的问题也应该更具体。您可以从完整的日志复制粘贴开始。直到现在,这就像你说我的应用程序不工作,我不知道为什么。否则我无法帮助你。 – PinoSan

回答

1

我觉得你有点混淆了。在Windows机器上运行Spark时 - 使用远程主服务器或在本地运行它是有意义的。在这两种情况下 - 使用bin\spark-shell.cmd(或另一个bin/*.cmd)。您只应在Windows机器上执行以.cmd结尾的命令。当你运行start-master.sh你说的是 - 我想用这台机器作为火花集群的资源管理器,所以其他火花客户端可以连接它并执行查询。这可能不是你想要的。当你在做local[*]时,你已经在使用所有本地资源,没有必要启动“主”。如果您需要更多资源 - 启动远程群集(例如EMR),然后使用它连接到bin\spark-shell.cmd --master AMAZON.IP:7077

+0

感谢@avloss的反馈。 EMR是费用选项。你有没有其他的选择,没有任何额外的费用用于测试目的?我仍然想知道是否可以在Windows上创建一个独立群集(一台主机和一台机器上有4个从机),因为它是在linux的火花教程中提供的([link](http://mbonaci.github.io/mbo-火花/))? – Hawk360

+0

你可以 - 但你必须使用类似[VirtualBox](https://www.virtualbox.org/)的东西才能运行它。然后在这里(https://www.virtualbox.org/wiki/Linux_Downloads)获取一个Ubuntu的imange,然后按照他的步骤操作。但是再次 - 我看不出这样做的真正意义,因为你的Spark将工作得更慢(可能要慢得多)。但如果这对你来说更像是练习,那么我会说'VirtualBox'肯定是要走的路,因为我怀疑任何人都在Windows机器上运行生产集群。 – avloss