0

我正在尝试将CfnCluster 1.2.1用于GPU计算,并且使用基于Ubuntu 14.04 CfnCluster AMI的自定义AMI。Ubuntu CfnCluster中的计算节点未执行的任务图像

尽管当我使用主服务器中的qsub向Oracle Grid Engine提交新的测试任务时,所有内容都在CloudFormation控制台中正确创建,但它永远不会根据qstat从队列中执行。它始终处于“qw”状态,永远不会进入状态“r”。

它似乎与亚马逊Linux AMI(使用用户ec2用户,而不是Ubuntu)和完全相同的配置正常工作。另外,主实例将作为度量标准向群集宣告剩余任务的数量,结果会自动缩放新的计算实例。

CfnCluster或Oracle Grid Engine提供了哪些机制来进一步调试?我看了看日志文件,但没有发现任何相关的东西。这种行为的原因是什么?

谢谢

迭戈

+0

您能否告诉您是否有工作节点可以完成任务?如果您有命令行访问权限,请运行“qhost”进行验证。 –

+0

我有工作节点准备好任务,但不知何故所有的领域都是空的。我用qhost命令得到这个输出:$ qhost HOSTNAME ARCH NCPU NSOC NCOR NTHR LOAD MEMTOT MEM SWAPTO SWAPUS -------------------------- --------------------------------------------------全球 - - - - - - - - - - ip-10-0-0-47 - - - - - - - - - - - –

回答

0

我想我找到了解决方案。这似乎是同样的问题,通过添加以下行至CfnCluster配置文件中https://github.com/awslabs/cfncluster/issues/86#issuecomment-196966385

我固定它描述的:

base_os = ubuntu1404 

如果指定了custom_ami但没有base_os指定,它默认使用Amazon Linux,它使用不同的方法来配置SGE。如果base_os和custom_ami os不同,则CfnCluster执行SGE配置时可能会出现问题。

1

类似https://stackoverflow.com/a/37324418/704265

从你qhost输出,它看起来像你的机器 “IP-10-0-0-47” 在SGE正确配置。但是,在“ip-10-0-0-47”上,sge_execd未运行或未正确配置。如果是,qhost会报告“ip-10-0-0-47”的统计数据。