我有一个数据组,其中每个样本具有类似于此高效算法代替循环
X=[ [[],[],[],[]], [[],[]] , [[],[],[]] ,[[][]]]
例如的结构:
X=np.array([ [ [1,2,3], [2,4,5] ,[2,3,4] ] , [ [5,6], [6,6] ] , [[2,3,1],[2,3,10],[23,1,2],[1,4,5]] ] ,"object")
Y=np.array([ [ [12,14,15] ,[12,13,14] ] , [ [15,16], [16,16] ] , [[22,23,21],[32,33,11],[12,44,55]] ] ,"object")
所以每个样本我需要计算在x的每个元素与相同索引的y的对应元素之间的点积并且求和结果。即:
result=0
for i in range(3):
for n,m in itertools.product(X[i],Y[i]):
print "%s, %s" % (n,m)
result+=np.dot(n,m)
.....:
[1, 2, 3], [12, 14, 15]
[1, 2, 3], [12, 13, 14]
[2, 4, 5], [12, 14, 15]
[2, 4, 5], [12, 13, 14]
[2, 3, 4], [12, 14, 15]
[2, 3, 4], [12, 13, 14]
[5, 6], [15, 16]
[5, 6], [16, 16]
[6, 6], [15, 16]
[6, 6], [16, 16]
[2, 3, 1], [22, 23, 21]
[2, 3, 1], [32, 33, 11]
[2, 3, 1], [12, 44, 55]
[2, 3, 10], [22, 23, 21]
[2, 3, 10], [32, 33, 11]
[2, 3, 10], [12, 44, 55]
[23, 1, 2], [22, 23, 21]
[23, 1, 2], [32, 33, 11]
[23, 1, 2], [12, 44, 55]
[1, 4, 5], [22, 23, 21]
[1, 4, 5], [32, 33, 11]
[1, 4, 5], [12, 44, 55]
这是我的全部代码:
print "***build kernel***"
K = np.zeros((n_samples, n_samples))
for i in range(n_samples):
for j in range(n_samples):
K[i,j] = self.kernel(X[i], X[j])
def kernel(x1,x2):
N=8 #number of objects
result=0
for i in xrange(N):
for n,m in itertools.product(x1[i],x2[i]):
result+=np.dot(n,m)
return result
正如你所看到的这个算法的复杂度太高,也是我的样本比这大得多。所以即使是一个小的数据集,即包含400个样本,我也要等4个小时才能得出结果。我正在寻找更好的方法来实现这个算法。 P.S:我正在考虑多线程或多处理,但我不确定它是否有帮助?!
我很欣赏任何建议!
请问你的问题,发展壮大?当你说200个样本需要4个小时时,你的意思是说,例如'X [i]'和'Y [i]'都有200个矢量? – Claudiu 2013-03-18 14:57:29
你的“整个代码”不参考'Y'。 – 2013-03-18 14:58:18
X和y只是例子..你看代码 – Moj 2013-03-18 15:22:31