我正在尝试将CfnCluster 1.2.1用于GPU计算,并且使用基于Ubuntu 14.04 CfnCluster AMI的自定义AMI。Ubuntu CfnCluster中的计算节点未执行的任务图像
尽管当我使用主服务器中的qsub向Oracle Grid Engine提交新的测试任务时,所有内容都在CloudFormation控制台中正确创建,但它永远不会根据qstat从队列中执行。它始终处于“qw”状态,永远不会进入状态“r”。
它似乎与亚马逊Linux AMI(使用用户ec2用户,而不是Ubuntu)和完全相同的配置正常工作。另外,主实例将作为度量标准向群集宣告剩余任务的数量,结果会自动缩放新的计算实例。
CfnCluster或Oracle Grid Engine提供了哪些机制来进一步调试?我看了看日志文件,但没有发现任何相关的东西。这种行为的原因是什么?
谢谢
迭戈
您能否告诉您是否有工作节点可以完成任务?如果您有命令行访问权限,请运行“qhost”进行验证。 –
我有工作节点准备好任务,但不知何故所有的领域都是空的。我用qhost命令得到这个输出:$ qhost HOSTNAME ARCH NCPU NSOC NCOR NTHR LOAD MEMTOT MEM SWAPTO SWAPUS -------------------------- --------------------------------------------------全球 - - - - - - - - - - ip-10-0-0-47 - - - - - - - - - - - –