我有一个具有gpu节点(nvidia)的集群并部署了DC/OS 1.8。我想启用使用gpu隔离在gpu节点上安排作业(批处理和火花)。 DC/OS基于支持gpu隔离的mesos 1.0.1。在DC/OS上启用GPU资源(CUDA)
回答
为了使支撑GPU资源在DC/OS簇所需的下一个步骤:在GPU节点
配置mesos剂:
1.1。停止DCOS-mesos-slave.service:systemctl stop dcos-mesos-slave.service
1.2。接下来的参数添加到的/ var/lib中/ DCOS/mesos,从常见文件:
# a comma separated list of GPUs (id), as determined by running nvidia-smi on the host where the agent is to be launched MESOS_NVIDIA_GPU_DEVICES="0,1"
# value of the gpus resource must be complied with number of ids above MESOS_RESOURCES= [ {"name":"ports","type":"RANGES","ranges": {"range": [{"begin": 1025, "end": 2180},{"begin": 2182, "end": 3887},{"begin": 3889, "end": 5049},{"begin": 5052, "end": 8079},{"begin": 8082, "end": 8180},{"begin": 8182, "end": 32000}]}} ,{"name": "gpus","type": "SCALAR","scalar": {"value": 2}}]
MESOS_ISOLATION=cgroups/cpu,cgroups/mem,disk/du,network/cni,filesystem/linux,docker/runtime,docker/volume,cgroups/devices,gpu/nvidia
1.3。启动DCOS-mesos-slave.service:
systemctl start dcos-mesos-slave.service
在mesos框架启用GPU_RESOURCES能力:
2.1。 Marathon框架应该与选项
--enable_features "gpu_resources"
2.2。极光调度应与选项
-allow_gpu_resource
注推出。
任何运行具有Nvidia GPU支持的Mesos代理的主机都必须安装有效的Nvidia内核驱动程序。强烈建议安装相应的用户级库和工具作为Nvidia CUDA工具包的一部分。许多使用Nvidia GPU的作业都依赖于CUDA,但不包括它会严重限制您可以在Mesos上运行的GPU感知作业的类型。
你会碰巧知道如何为马拉松框架设置'--enable_features“gpu_resources”'。而要清楚的是,这是关于马拉松嵌入mesos,而不是你可以从宇宙正确运行的服务? –
没有马拉松嵌入到mesos中。 dcos中嵌入了马拉松。您可以在dcos中创建独立的马拉松服务,也可以在独立的mesos群集上创建独立的马拉松服务。要在Marathon中启用gpu_resources,请执行以下操作:1)独立的mesos群集:添加到文件'/ etc/marathon/conf/enable_features'中的内容:',gpu_resources'; 2)对于dcos,你必须在marathon守护进程参数中加入选项'--enable_features ='gpu_resources''来编辑马拉松系统单元文件('/ etc/systemd/system/dcos-marathon.service')一个更好的方法) – Kr0t
不幸的是,DC/OS不正式支持的GPU在1.8(实验对GPU的支持,将在下一版本中来这里提到:https://github.com/dcos/dcos/pull/766)。
在这个下一个版本中,只有Marathon才能正式启动GPU服务(节拍器(即批量作业)不会)。
关于spark,与Universe捆绑在一起的spark版本可能不支持Mesos构建的GPU。 Spark本身即将推出:https://github.com/apache/spark/pull/14644
有没有一个文档/参考,说节拍器不支持GPU呢?我找不到一个。 1.9.1似乎也不需要这种支持。 我们也有要求使用基于计划的作业,而不是基于马拉松的基于服务的实例。 – Dharmi
- 1. 在GPU上的Direct2D中存储资源
- 2. Apache Aurora GPU资源
- 3. cuda启用nvidia GPU的比较
- 4. DCOS集群资源分配是NP难
- 5. 可以在AMD GPU上运行CUDA吗?
- 6. 在“廉价”GPU上为CUDA开发
- 7. OpenCL和CUDA内核在同一GPU上
- 8. CUDA:在GPU上分配2D阵列
- 9. 在GPU上解决特征 - CUDA
- 10. 在Ubuntu 16.04上有一个GPU的CUDA?
- 11. 联网CUDA GPU
- 12. CUDA远程GPU
- 13. CUDA在试图通过MATLAB启动时出现资源不足
- 14. 使用多个CUDA GPU
- 15. 未能在OpenCV的GPU(CUDA)
- 16. Gingerbread上的GPU资源可用于应用程序吗?
- 17. DCOS/Mesos在框架删除时不保留资源
- 18. 多GPU Cuda计算
- 19. 多GPU CUDA推力
- 20. 在iPhone上进行GPU加速计算(GPGPU)的资源?
- 21. GPU上是否有MapReduce实现(CUDA)?
- 22. CUDA环境下GPU上的可视化
- 23. nVidia GPU上带有PCI接口的CUDA
- 24. Cuda内核代码位于NVIDIA GPU上?
- 25. 没有GPU的系统上的CUDA
- 26. CUDA:从GPU发送数据到GPU
- 27. 在IIS7上启用跨源资源共享
- 28. CUDA | OpenCV | GPU模块|如何访问cv :: gpu :: GpuMat上的元素
- 29. 使用CUDA为GPU同时启动多个内核
- 30. 如何运行带动态资源分配的spark + cassandra + mesos(dcos)?
如果你可以用你已经尝试或发现自己的东西来扩展你的问题,那将是非常好的。 –