flops

    0热度

    2回答

    我有两个几乎相同的OpenCL内核,我想用GFLOPS来计算它们的性能。内核#1: __kernel void Test41(__global float *data, __global float *rands, int index, int rand_max){ float16 temp; int gid = get_global_id(0); temp =

    0热度

    1回答

    我使用既特斯拉K40和GTX泰坦X和予有Cuda的8.0 ,我使用是CUBLAS和CuSparse库函数的功能: cusparseDcsrsv2_solve(); cusparseDcsrmv(); cublasDdot(); 为什么GTX Titan X比K40快? 我正在编译nvcc标志,所有计算能力从3.0到6.0 和我的程序处理9 GB/12 GB RAM。 关于我库函数不使用双精度,因为

    -1热度

    1回答

    我的问题是因为有一些旧的GPU具有顶点着色器和像素着色器,我不知道如何用这种GPU测量GFLOPS。 我知道你可以使用核心速度x ALU x 2来测量GFLOPS(我不知道这个“2”是什么,如果有人能回答这个,那太棒了!)。但对于没有统一着色器的GPU,我如何测量它? 在此先感谢。

    2热度

    1回答

    我有一个C++代码,其计算int数据类型的阶乘,除了浮点数据类型和每个功能的执行时间的如下: long Sample_C:: factorial(int n) { int counter; long fact = 1; for (int counter = 1; counter <= n; counter++) { fact = fact *

    1热度

    1回答

    要测量CPU的峰值FLOPS性能,我写了一个小小的C++程序。但测量结果给我的结果比我的CPU的理论峰值FLOPS更大。哪里不对? 这是我写的代码: #include <iostream> #include <mmintrin.h> #include <math.h> #include <chrono> //28FLOP inline void _Mandelbrot(__m128 &

    0热度

    1回答

    测量算法时,如果有除法操作,如何计算FOP的总数和浮点性能? 例如,n2矩阵乘法,计算n3 * 2flops(乘法,加法),假设使用相同的数据集n2,我们将矩阵乘法的乘法运算改为除法运算,如何计算无人问津。矩阵乘法的结果是否相同?

    0热度

    1回答

    我想了解如果使用特定算法找到指数近似总和,有多少FLOP存在,特别是如果我使用数学。 python中的阶乘(n)。我理解二进制操作的FLOPs,因此在一个函数内部也是二元操作吗?不是计算机科学专业,我遇到了一些困难。我的代码如下所示: from __future__ import division import numpy as np import matplotlib.pyplot as p

    2热度

    1回答

    我试图使用英特尔VTune放大器估算FLOPS我的申请,我在这里使用这个职位作为一个准则:https://software.intel.com/en-us/articles/estimating-flops-using-event-based-sampling-ebs/ 的问题是,我无法找到VTUNE的FP_COMP_OPS_EXE事件GUI。当我用这个事件配置运行amplxe-cl时,出现以下错

    0热度

    1回答

    我已经提取了多少触发器(浮点运算)我的每一个算法消费, ,如果我上实现FPGA或CPU上这个算法我想知道,可以预测(大概至少)多大的权力将被消耗? 在CPU或ASIC/FPGA中的两种功耗估计都适合我。我正在寻找类似公式的东西。对于Intel CPU,我有this journal paper。它给每个指令的功耗(不仅是浮点运算,还包括所有寻址,控制等指令),所以我需要一些更通用的基于FLOPS的功

    7热度

    1回答

    我一直在寻找相当长的一段时间,似乎无法找到一个官方/结论性数字,指出英特尔至强四核可以完成的单精度浮点运算/时钟周期数。我有一个Intel Xeon四核E5530 CPU。 我希望用它来计算我的CPU可以达到的最大理论FLOP/s。 MAX FLOPS =(芯#号)*(时钟频率(周期/秒))×(#FLOPS /循环) 任何指向我在正确的方向将是有用的。我发现这个 FLOPS per cycle f