我尝试使用混合MPI-OpenMP并行运行代码。据我所知,只要OpenMP线程的数量少于物理处理器的数量,每个处理器就运行一个线程。假设这是真的,假设我有一个由两个计算卡组成的假想计算节点。每块计算卡都有4个处理器+内存的芯片。我的问题是:什么是MPI和OpenMP参数的最佳选择。我会说2个MPI工作和4个线程,这是正确的吗?运行混合MPI的最佳方式 - OpenMP作业
OMP_NUM_THREADS = 4 mpirun -np 2 code
我一些同事说,这些参数应慎重选择听到,以获得最佳的性能(取决于硬件布局)。我希望在运行混合作业方面提供一些建议。
感谢