xeon-phi

    0热度

    1回答

    英特尔工程师写道,我们应该使用VZEROUPPER/VZEROALL以避免在所有处理器上昂贵的过渡到非VEX状态,包括未来的至强处理器,但不是在至强融核:https://software.intel.com/pt-br/node/704023 人们还测量并发现VZEROUPPER和VZEROALL是昂贵的上骑士降落: 36在64位模式(30个时钟在32位模式)两者接收指令的时钟周期。 查看上面的链

    2热度

    1回答

    Xeon-Phi骑士登陆核心有一个快速exp2指令vexp2pd(内部_mm512_exp2a23_pd)。英特尔C++编译器可以使用编译器附带的短矢量数学库(SVML)矢量化exp函数。具体而言,它称为功能__svml_exp8。 然而,当我通过调试步骤我没有看到__svml_exp8使用vexp2pd指令。这是许多FMA操作的复杂功能。据我所知,vexp2pd比exp不太准确,但如果我用-fp

    1热度

    1回答

    我刚刚接触至强Phi编程,并且当前正试图学习显式卸载编程......我一直在阅读由intel提供的某些教程,但我无法正确理解如果有人知道它的含义,请尝试通过在不同场景中给出它的用法来解释它的含义,如果您能够向我介绍网络上的任何交互式教程,将会非常有帮助。

    2热度

    1回答

    我正在寻找一个简单的例子,其中使用至强Phi上的矢量化和并行化,这比只使用Xeon的性能更好。请问你能帮帮我吗? 我正在尝试下一个例子。我评论的线14,18和19只至强运行和uncoment这些对于至强披,但只有至强比至强-PHI有关自动向量化 1.void main(){ 2.double *a, *b, *c; 3.int i,j,k, ok, n=100; 4.int nPadded

    0热度

    2回答

    也许我的问题的解决方案是非常明显的。我想用openMP(英特尔至强融核)加速下面的代码,但我不能。 int c=0, d=0, e=0, i; #pragma opm parallel for private(c, d, e) for(i=0; i < columns; i++) { if((left_side[rule*columns + i] > 0) || (right_si

    3热度

    1回答

    _mm512_storenrngo_pd和_mm512_storenr_pd有什么区别? _mm512_storenr_pd(无效*公吨,__m512d V): 商店压缩双精度(64位)从V 浮点元素存储器地址公吨用非读取暗示到处理器。 我不清楚,什么没有读取提示的意思。这是否意味着它是非缓存一致写入。这是否意味着重用更昂贵或者不一致? _mm512_storenrngo_pd(无效*公吨,__m

    2热度

    1回答

    我已经实现了一个简单的n×n矩阵乘法,用OpenMp测试c中的相同性能调试。我最初的代码如下: #pragma omp parallel for shared(a,b,c) private(h,i,j,k) for(i = 0; i < n; i++) { for(j = 0; j < n; j++) { for(k = 0; k < n;

    3热度

    2回答

    我期待测试R的性能,更具体地说,是使用Intel Xeon Phi协处理器的HPC群集上的forecast软件包中的一些例程。系统管理员了,我明白了,建立以下英特尔网站上的说明,从源头R/3.2.5:https://software.intel.com/en-us/articles/build-r-301-with-intel-c-compiler-and-intel-mkl-on-linux 所

    0热度

    1回答

    的代码是这样的: for(int i = 0; i < loop_count; i++) cblas_sgemm(<paras group A>); 当矩阵不是非常大,的fork-join成本是非常明显的,尤其是当这是在MIC运行。此外,手动分离任务将导致MIC上出现一些问题,如MKL Performance on Intel Phi所示。 //separate the left a

    1热度

    1回答

    我在阅读this关于如何使用Intel C++编译器和Intel Knights Landing上的AVX512支持编译C/C++代码的文档。 不过,我对这个部分有点困惑: -xMIC-AVX512:使用该选项生成AVX-512F,AVX-512CD,AVX-512ER和AVX-512FP。 -xCORE-AVX512:使用此选项可生成AVX-512F,AVX-512CD,AVX-512BW,AV