xeon-phi

0热度

1回答

我试图利用由knc（Xeon Phi）提供的SIMD 512来提高使用intel intrinsics的以下C代码的性能。然而，我的内在的嵌入代码的运行速度比自动向量化代码 C代码 int64_t match=0; int *myArray __attribute__((align(64))); myArray = (int*) malloc (sizeof(int)*SIZE); //SIZ

0热度

1回答

来自intel的Xeon处理器的协处理器架构

我正在从intel处理新的xeon phi协处理器处理器。我想问两个问题，但彼此接近。首先，非常基本，与编程/成本/性能相比，gpu显卡有哪些优缺点。其次，文档说协处理器通过环形互连进行连接。还有其他类型的互连存在以及它们如何工作？（非常欢迎指导性计算机架构的潜在参考）。

0热度

1回答

如何将单个应用的特定线程卸载到特定的Xeon Phi内核？

假设我有一台运行在主机上的c/C++应用程序。主CPU上运行的线程很少，在Xeon Phi内核上运行的线程数也很少。如何确保这50个运行在其自己的Xeon Phi内核上，并且永远不会从核心缓存中清除（因为代码足够小）。有人可以请概述一个非常普遍的想法如何做到这一点，哪些工具/ API会更适合（对于C/C++代码）？在主机线程聚合器和50个Phi线程之间交换数据的最快方式是什么？鉴于实际的并

3热度

1回答

loaddup_pd/unpacklo_pd

如果我在512宽SIMD矢量以下双打，如在至强披寄存器： m0 = |b4|a4|b3|a3|b2|a2|b1|a1| 是有可能使之变成： m0_d = |a4|a4|a3|a3|a2|a2|a1|a1| 使用单一指令？另外，因为没有双工的内在因素，这仍然是一个有效的方法来实现上述？ m0_t = _mm512_swizzle_pd(m9,_MM_SWIZ_REG_CDAB);//m0_

1热度

1回答

Xeon Phi中的分散/聚集

我指的是英特尔至强Phi指令集手册，无法理解分散/聚集指令的工作方式。假设，如果我有双打以下矢量： A-> |b4|a4|b3|a3|b2|a2|b1|a1| 是否有可能创建4个向量如下：使用这些说明 V1->|b1|a1|b1|a1|b1|a1|b1|a1| V2->|b2|a2|b2|a2|b2|a2|b2|a2| V3->|b3|a3|b3|a3|b3|a3|b3|a3| V4-

0热度

2回答

任何人在Xeon Phi上使用GMP？

我使用icc和-mmic选项编译了GMP，但无法在MIC上安装。我应该如何安装？我写了一个演示程序，用icc编译。它说找不到gmp.h. 我应该如何在MIC上安装GMP库以及放置gmp.h的位置？

4热度

1回答

获取特定型号的Xeon phi

我正在尝试查找我正在使用的至强Phi协处理器的确切型号。我跑micpinfo，这就是我得到 ***************************/opt/intel/mic/bin/micinfo*************************** MicInfo Utility Log Created Fri Jan 10 13:09:40 2014 System In

0热度

1回答

英特尔®线程构建模块支持英特尔至强融核协处理器

我在英特尔的论坛上询问过这个问题，但没有运气。有人知道Intel TBB的哪个版本开始支持至强Phi协处理器吗？谢谢。

0热度

1回答

英特尔至强融核处理器每个时钟周期的乘法次数

在英特尔至强融核中，每个核心有32个512位宽的向量寄存器。每个向量寄存器可以在每个周期执行16次单精度浮点运算。并且可以在1个循环中完成2个操作（1个在v管道中，1个在u管道中）。我想知道除了矢量寄存器中的矢量乘法之外，在1个时钟周期内可以完成多少个标量乘法。

1热度

1回答

xeon phi计时器分辨率

我的主要目的是在xeon phi协处理器中插入1ms的延迟，但我的结果差异达到了〜9ms。所以，我试着用Xeon主机和phi协处理器来寻找定时器分辨率。我执行以下代码： #include <stdio.h> #include <time.h> #include <sys/time.h> int main() { struct timespec t