2016-08-05 21 views
1

我试图在IPython笔记本中使用Spark连接到AWS EC2群集来运行简单的WordCount作业。当我在本地独立模式下使用Spark时,该程序完美工作,但在尝试将其连接到EC2群集时会引发问题。在EC2上使用Spark的IPython Notebook:初始作业未接受任何资源

我采取了以下措施

我按照这个Supergloo blogpost的指示。

直到我尝试将输出写入文件的最后一行发现没有错误。 [火花惰性加载功能,意味着这个程序的时候真正开始执行]

这是我得到的错误

[Stage 0:>               (0 + 0)/2]16/08/05 15:18:03 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources 

居然没有任何错误,我们有这个警告,程序进入无限期的等待状态。除非我杀死IPython笔记本,否则什么都不会发生。

我看这Stackoverflow post,并通过主指令之后,使用此选项减少核的数量为1,并且存储器512

--total-executor-cores 1 --executor-memory 512m 

从SparkUI屏幕捕获是如下 sparkUI

这清楚地表明核心和用户界面都没有被充分利用。

最后,我从这个StackOverflow post

的火花EC2脚本看到EC2配置星火集群作为独立的, 这意味着它不能与远程的提交工作。我一直在努力 与你在前几天描述的相同的错误,然后才算出它不支持 。该消息错误不幸是不正确的。

所以你必须复制你的东西并登录到主人执行你的 火花任务。

如果事实确实如此,那么没有什么更多的事情要做,但由于该声明是在2014年提出,我希望的是,在过去的2年剧本已经解决或有解决方法。如果有任何解决方法,我会很感激,如果有人能指出我的请。

感谢您的阅读,直到这一点,并提供任何建议。

回答

0

除非您设置了基于REST的Spark作业服务器,否则您无法提交除Master之外的作业 - 如您所见。

相关问题