Numpy dot产品非常缓慢地使用整数

很抱歉有这么多问题。我在Intel Core 2 Duo上运行Mac OSX 10.6。我正在为我的研究运行一些基准，并且遇到了令我感到困惑的另一件事。Numpy dot产品非常缓慢地使用整数

如果我运行

python -mtimeit -s 'import numpy as np; a = np.random.randn(1e3,1e3)' 'np.dot(a,a)'

我得到以下输出：10 loops, best of 3: 142 msec per loop

但是，如果我跑

python -mtimeit -s 'import numpy as np; a = np.random.randint(10,size=1e6).reshape(1e3,1e3)' 'np.dot(a,a)'

我得到以下输出：10 loops, best of 3: 7.57 sec per loop

然后，我跑到

python -mtimeit -s 'import numpy as np; a = np.random.randn(1e3,1e3)' 'a*a'然后

python -mtimeit -s 'import numpy as np; a = np.random.randint(10,size=1e6).reshape(1e3,1e3)' 'a*a'

两个跑，每圈约7.6毫秒，所以它不是乘法。添加也有类似的速度，所以这些都不应该影响点积，对吧？那么为什么使用ints计算点积要比使用浮点数慢50倍呢？

来源

2012-08-08 Nino

我也一样在Linux上 - 我得到float64约3秒和INT3210秒（这是一台老机器）。不是50的因素，但仍然很奇怪。 – Luke 2012-08-08 01:37:51

很有趣，我很好奇，想看看它是如何实现的，所以我做：

>>> import inspect 
>>> import numpy as np 
>>> inspect.getmodule(np.dot) 
<module 'numpy.core._dotblas' from '/Library/Python/2.6/site-packages/numpy-1.6.1-py2.6-macosx-10.6-universal.egg/numpy/core/_dotblas.so'> 
>>>

所以它看起来像使用BLAS库其。

这样：

>>> help(np.core._dotblas)

从中我发现这一点：

当numpy的与加速BLAS像ATLAS建成，这些功能被替换，以利用更快的实现。更快的实现仅影响float32，float64，complex64和complex128 数组。此外，BLAS API仅包括矩阵 - 矩阵，矩阵 - 矢量和矢量 - 矢量产品。具有较大维度的阵列产品使用内置函数并且不加速。

所以它看起来像ATLAS细调某些功能，但它只适用于某些数据类型，非常有趣。

所以是它看起来我将使用浮动更加频繁...

来源

2012-08-08 02:00:59

我更喜欢你的答案:) – Luke 2012-08-08 02:05:38

@Luke感谢+1为你做回溯，它也是另一种有用的方法。 – 2012-08-08 02:06:52

很高兴知道。当我去上班时，我会用同样的方法来看看MKL是否也是如此。谢谢您的帮助。卢克更喜欢这个答案，所以你得到了接受。 – Nino 2012-08-08 21:12:20

使用INT VS浮点数据类型将导致执行不同的代码路径：

浮法堆栈跟踪看起来像这样：

(gdb) backtr 
#0 0x007865a0 in dgemm_() from /usr/lib/libblas.so.3gf 
#1 0x007559d5 in cblas_dgemm() from /usr/lib/libblas.so.3gf 
#2 0x00744108 in dotblas_matrixproduct (__NPY_UNUSED_TAGGEDdummy=0x0, args=(<numpy.ndarray at remote 0x85d9090>, <numpy.ndarray at remote 0x85d9090>), 
kwargs=0x0) at numpy/core/blasdot/_dotblas.c:798 
#3 0x08088ba1 in PyEval_EvalFrameEx() 
...

..while对于int堆栈跟踪看起来像这样：

(gdb) backtr 
#0 LONG_dot (ip1=0xb700a280 "\t", is1=4, ip2=0xb737dc64 "\a", is2=4000, op=0xb6496fc4 "", n=1000, __NPY_UNUSED_TAGGEDignore=0x85fa960) 
at numpy/core/src/multiarray/arraytypes.c.src:3076 
#1 0x00659d9d in PyArray_MatrixProduct2 (op1=<numpy.ndarray at remote 0x85dd628>, op2=<numpy.ndarray at remote 0x85dd628>, out=0x0) 
at numpy/core/src/multiarray/multiarraymodule.c:847 
#2 0x00742b93 in dotblas_matrixproduct (__NPY_UNUSED_TAGGEDdummy=0x0, args=(<numpy.ndarray at remote 0x85dd628>, <numpy.ndarray at remote 0x85dd628>), 
kwargs=0x0) at numpy/core/blasdot/_dotblas.c:254 
#3 0x08088ba1 in PyEval_EvalFrameEx() 
...

两个调用导致dotblas_matrixproduct，但现在看来，浮动通话中的BLAS库保持（可能访问某些精心优化的代码），而int call被踢回numpy的PyArray_MatrixProduct2。

所以这是一个bug或BLAS只是不支持matrixproduct中的整数类型（这似乎不太可能）。

下面是一个简单和廉价的解决方法：

af = a.astype(float) 
np.dot(af, af).astype(int)

来源

2012-08-08 01:55:31 Luke

值得注意的是，如果您的数据具有非常大的值，则此解决方法可能会导致错误，并且可能需要复制整个矩阵，因此如果矩阵非常大，则代价很大。 – Dougal 2012-08-08 04:26:26

谢谢，卢克。该解决方法确实复制了矩阵，结果相当麻烦（对于内存问题），但就时间而言，1e4x1e4矩阵的速度要快上千倍！任何更大的数字，使用整数测试乘法运算速度太慢。 @Dougal这只适用于大于2^52的数字，使用64位浮点数，对吧？数字不会大于这个数字，如果可能的话，我想利用这个加速。 – Nino 2012-08-08 21:11:17

@Nino Yep，在那里。 BLAS库不适合整数类型，而且numpy的内置'dot'太慢了。如果内存问题是一个问题，你可以考虑写一个ctypes接口来完成[Eigen]（http://eigen.tuxfamily.org/）中的乘法或类似的操作，这应该会更快。 – Dougal 2012-08-08 21:26:59

Numpy dot产品非常缓慢地使用整数

回答

相关问题