xeon-phi

0热度

1回答

英特尔工程师写道，我们应该使用VZEROUPPER/VZEROALL以避免在所有处理器上昂贵的过渡到非VEX状态，包括未来的至强处理器，但不是在至强融核：https://software.intel.com/pt-br/node/704023 人们还测量并发现VZEROUPPER和VZEROALL是昂贵的上骑士降落： 36在64位模式（30个时钟在32位模式）两者接收指令的时钟周期。查看上面的链

2热度

1回答

从SVML覆盖函数调用

Xeon-Phi骑士登陆核心有一个快速exp2指令vexp2pd（内部_mm512_exp2a23_pd）。英特尔C++编译器可以使用编译器附带的短矢量数学库（SVML）矢量化exp函数。具体而言，它称为功能__svml_exp8。然而，当我通过调试步骤我没有看到__svml_exp8使用vexp2pd指令。这是许多FMA操作的复杂功能。据我所知，vexp2pd比exp不太准确，但如果我用-fp

1热度

1回答

Xeon Phi编程中的nocopy子句的含义

我刚刚接触至强Phi编程，并且当前正试图学习显式卸载编程......我一直在阅读由intel提供的某些教程，但我无法正确理解如果有人知道它的含义，请尝试通过在不同场景中给出它的用法来解释它的含义，如果您能够向我介绍网络上的任何交互式教程，将会非常有帮助。

2热度

1回答

矢量化和并行化至强Phi

我正在寻找一个简单的例子，其中使用至强Phi上的矢量化和并行化，这比只使用Xeon的性能更好。请问你能帮帮我吗？我正在尝试下一个例子。我评论的线14，18和19只至强运行和uncoment这些对于至强披，但只有至强比至强-PHI有关自动向量化 1.void main(){ 2.double *a, *b, *c; 3.int i,j,k, ok, n=100; 4.int nPadded

0热度

2回答

如何使用openMP并行化内部循环？

也许我的问题的解决方案是非常明显的。我想用openMP（英特尔至强融核）加速下面的代码，但我不能。 int c=0, d=0, e=0, i; #pragma opm parallel for private(c, d, e) for(i=0; i < columns; i++) { if((left_side[rule*columns + i] > 0) || (right_si

3热度

1回答

_mm512_storenr_pd和_mm512_storenrngo_pd

_mm512_storenrngo_pd和_mm512_storenr_pd有什么区别？ _mm512_storenr_pd（无效*公吨，__m512d V）：商店压缩双精度（64位）从V 浮点元素存储器地址公吨用非读取暗示到处理器。我不清楚，什么没有读取提示的意思。这是否意味着它是非缓存一致写入。这是否意味着重用更昂贵或者不一致？ _mm512_storenrngo_pd（无效*公吨，__m

2热度

1回答

Xeon Phi：填充性能较差

我已经实现了一个简单的n×n矩阵乘法，用OpenMp测试c中的相同性能调试。我最初的代码如下： #pragma omp parallel for shared(a,b,c) private(h,i,j,k) for(i = 0; i < n; i++) { for(j = 0; j < n; j++) { for(k = 0; k < n;

3热度

2回答

在Linux集群上安装R`forecast`软件包：编译器问题？

我期待测试R的性能，更具体地说，是使用Intel Xeon Phi协处理器的HPC群集上的forecast软件包中的一些例程。系统管理员了，我明白了，建立以下英特尔网站上的说明，从源头R/3.2.5：https://software.intel.com/en-us/articles/build-r-301-with-intel-c-compiler-and-intel-mkl-on-linux 所

0热度

1回答

如何在MKL中调用cblas_sgemm时避免fork-join？

的代码是这样的： for(int i = 0; i < loop_count; i++) cblas_sgemm(<paras group A>); 当矩阵不是非常大，的fork-join成本是非常明显的，尤其是当这是在MIC运行。此外，手动分离任务将导致MIC上出现一些问题，如MKL Performance on Intel Phi所示。 //separate the left a

1热度

1回答

关于编译AVX512的困惑

我在阅读this关于如何使用Intel C++编译器和Intel Knights Landing上的AVX512支持编译C/C++代码的文档。不过，我对这个部分有点困惑： -xMIC-AVX512：使用该选项生成AVX-512F，AVX-512CD，AVX-512ER和AVX-512FP。 -xCORE-AVX512：使用此选项可生成AVX-512F，AVX-512CD，AVX-512BW，AV