0
我想通过在CUDA中使用固定精度数字来加快我的代码速度。我需要64位。我怎样才能做这个乘法而不会溢出并截断我的数字的顶部。 CUDA中是否有128位的类型?在CUDA中实现固定精度数字
typedef long long fixed;
#define _fxadd(a, b) ((a) + (b))
#define _fxsub(a, b) ((a) - (b))
#define _fxmul(a, b) ((a) * (b)) >> 32