flops

0热度

2回答

我有两个几乎相同的OpenCL内核，我想用GFLOPS来计算它们的性能。内核＃1： __kernel void Test41(__global float *data, __global float *rands, int index, int rand_max){ float16 temp; int gid = get_global_id(0); temp =

0热度

1回答

CuSparse/CUBLAS K40 VS GTX泰坦X（麦克斯韦）

我使用既特斯拉K40和GTX泰坦X和予有Cuda的8.0 ，我使用是CUBLAS和CuSparse库函数的功能： cusparseDcsrsv2_solve（）; cusparseDcsrmv（）; cublasDdot（）; 为什么GTX Titan X比K40快？我正在编译nvcc标志，所有计算能力从3.0到6.0 和我的程序处理9 GB/12 GB RAM。关于我库函数不使用双精度，因为

-1热度

1回答

如何在非统一着色器系统上测量GPU GFLOPS？

我的问题是因为有一些旧的GPU具有顶点着色器和像素着色器，我不知道如何用这种GPU测量GFLOPS。我知道你可以使用核心速度x ALU x 2来测量GFLOPS（我不知道这个“2”是什么，如果有人能回答这个，那太棒了！）。但对于没有统一着色器的GPU，我如何测量它？在此先感谢。

2热度

1回答

如何计算C++程序中函数的GFLOPs？

我有一个C++代码，其计算int数据类型的阶乘，除了浮点数据类型和每个功能的执行时间的如下： long Sample_C:: factorial(int n) { int counter; long fact = 1; for (int counter = 1; counter <= n; counter++) { fact = fact *

1热度

1回答

超过理论峰值FLOPS基准

要测量CPU的峰值FLOPS性能，我写了一个小小的C++程序。但测量结果给我的结果比我的CPU的理论峰值FLOPS更大。哪里不对？这是我写的代码： #include <iostream> #include <mmintrin.h> #include <math.h> #include <chrono> //28FLOP inline void _Mandelbrot(__m128 &

0热度

1回答

如何计算特殊操作（exp sin sqrt）的FOP总数和浮点性能？

测量算法时，如果有除法操作，如何计算FOP的总数和浮点性能？例如，n2矩阵乘法，计算n3 * 2flops（乘法，加法），假设使用相同的数据集n2，我们将矩阵乘法的乘法运算改为除法运算，如何计算无人问津。矩阵乘法的结果是否相同？

0热度

1回答

在python中使用math.factorial（n）计算阶乘有多少FLOP

我想了解如果使用特定算法找到指数近似总和，有多少FLOP存在，特别是如果我使用数学。 python中的阶乘（n）。我理解二进制操作的FLOPs，因此在一个函数内部也是二元操作吗？不是计算机科学专业，我遇到了一些困难。我的代码如下所示： from __future__ import division import numpy as np import matplotlib.pyplot as p

2热度

1回答

FLOP测量

我试图使用英特尔VTune放大器估算FLOPS我的申请，我在这里使用这个职位作为一个准则：https://software.intel.com/en-us/articles/estimating-flops-using-event-based-sampling-ebs/ 的问题是，我无法找到VTUNE的FP_COMP_OPS_EXE事件GUI。当我用这个事件配置运行amplxe-cl时，出现以下错

0热度

1回答

FLOPS（浮点运算）的功耗估算？

我已经提取了多少触发器（浮点运算）我的每一个算法消费，，如果我上实现FPGA或CPU上这个算法我想知道，可以预测（大概至少）多大的权力将被消耗？在CPU或ASIC/FPGA中的两种功耗估计都适合我。我正在寻找类似公式的东西。对于Intel CPU，我有this journal paper。它给每个指令的功耗（不仅是浮点运算，还包括所有寻址，控制等指令），所以我需要一些更通用的基于FLOPS的功

7热度

1回答

每个周期的浮点运算 - 英特尔

我一直在寻找相当长的一段时间，似乎无法找到一个官方/结论性数字，指出英特尔至强四核可以完成的单精度浮点运算/时钟周期数。我有一个Intel Xeon四核E5530 CPU。我希望用它来计算我的CPU可以达到的最大理论FLOP/s。 MAX FLOPS =（芯＃号）*（时钟频率（周期/秒））×（＃FLOPS /循环）任何指向我在正确的方向将是有用的。我发现这个 FLOPS per cycle f