xeon-phi

    0热度

    1回答

    我试图利用由knc(Xeon Phi)提供的SIMD 512来提高使用intel intrinsics的以下C代码的性能。然而,我的内在的嵌入代码的运行速度比自动向量化代码 C代码 int64_t match=0; int *myArray __attribute__((align(64))); myArray = (int*) malloc (sizeof(int)*SIZE); //SIZ

    0热度

    1回答

    我正在从intel处理新的xeon phi协处理器处理器。 我想问两个问题,但彼此接近。 首先,非常基本,与编程/成本/性能 相比,gpu显卡有哪些优缺点。 其次,文档说协处理器通过环形互连进行连接。 还有其他类型的互连存在以及它们如何工作? (非常欢迎指导性计算机架构的潜在参考)。

    0热度

    1回答

    假设我有一台运行在主机上的c/C++应用程序。主CPU上运行的线程很少,在Xeon Phi内核上运行的线程数也很少。 如何确保这50个运行在其自己的Xeon Phi内核上,并且永远不会从核心缓存中清除(因为代码足够小)。 有人可以请概述一个非常普遍的想法如何做到这一点,哪些工具/ API会更适合(对于C/C++代码)? 在主机线程聚合器和50个Phi线程之间交换数据的最快方式是什么? 鉴于实际的并

    3热度

    1回答

    如果我在512宽SIMD矢量以下双打,如在至强披寄存器: m0 = |b4|a4|b3|a3|b2|a2|b1|a1| 是有可能使之变成: m0_d = |a4|a4|a3|a3|a2|a2|a1|a1| 使用单一指令? 另外,因为没有双工的内在因素,这仍然是一个有效的方法来实现上述? m0_t = _mm512_swizzle_pd(m9,_MM_SWIZ_REG_CDAB);//m0_

    1热度

    1回答

    我指的是英特尔至强Phi指令集手册,无法理解分散/聚集指令的工作方式。 假设,如果我有双打以下矢量: A-> |b4|a4|b3|a3|b2|a2|b1|a1| 是否有可能创建4个向量如下:使用这些说明 V1->|b1|a1|b1|a1|b1|a1|b1|a1| V2->|b2|a2|b2|a2|b2|a2|b2|a2| V3->|b3|a3|b3|a3|b3|a3|b3|a3| V4-

    0热度

    2回答

    我使用icc和-mmic选项编译了GMP,但无法在MIC上安装。我应该如何安装? 我写了一个演示程序,用icc编译。它说找不到gmp.h. 我应该如何在MIC上安装GMP库以及放置gmp.h的位置?

    4热度

    1回答

    我正在尝试查找我正在使用的至强Phi协处理器的确切型号。 我跑micpinfo,这就是我得到 ***************************/opt/intel/mic/bin/micinfo*************************** MicInfo Utility Log Created Fri Jan 10 13:09:40 2014 System In

    0热度

    1回答

    我在英特尔的论坛上询问过这个问题,但没有运气。 有人知道Intel TBB的哪个版本开始支持至强Phi协处理器吗? 谢谢。

    0热度

    1回答

    在英特尔至强融核中,每个核心有32个512位宽的向量寄存器。每个向量寄存器可以在每个周期执行16次单精度浮点运算。并且可以在1个循环中完成2个操作(1个在v管道中,1个在u管道中)。 我想知道除了矢量寄存器中的矢量乘法之外,在1个时钟周期内可以完成多少个标量乘法。

    1热度

    1回答

    我的主要目的是在xeon phi协处理器中插入1ms的延迟,但我的结果差异达到了〜9ms。所以,我试着用Xeon主机和phi协处理器来寻找定时器分辨率。我执行以下代码: #include <stdio.h> #include <time.h> #include <sys/time.h> int main() { struct timespec t