2016-07-11 21 views
2

我使用了一个使用armadillo C++线性库的余弦相似函数。我的代码是下一个:使用Armadillo C++的余弦相似性给我带来负面结果

double cosine_similarity(rowvec A, rowvec B) 
{ 
    double dot = as_scalar(A*B.t()); 
    double denomA = as_scalar(A*A.t()); 
    double denomB = as_scalar(B*B.t()); 
    return dot/(sqrt(denomA) * sqrt(denomB)) ; 
} 

我有此矩阵作为一个例子:

-0.0261 -0.6780 -0.7338 0.0345

-0.0230 0.0082 -0.0400 -0.7056

-0.2590 -0.7052 0.6590 -0.0371

-0.9650 0.2072 -0.1551 0.0426

-0.0230 0.0082 -0.0400 -0.7056

当我计算第二行之间的余弦相似性VS所有的i行得到的结果如下:

相似度[1,0]:-1.07944e-16

相似度[1,1]:1

相似度[1,2]:-1.96262e-17

相似度[1,3]:-1.71729e-16

相似度[1,2 4 ]:1

这是正确的吗?即使他们的意思是零,我也担心负面结果。我想知道如果我做错了什么。 cosine_similarity用于这种方式:

for (unsigned int row = 0; row < redV.n_rows ; row++) 
{ 
    double ans = cosine_similarity(redV.row(indicate), redV.row(row)); 
    cout << "Similarity [" << indicate << "," << row << "]: " << ans << endl; 
    cout << "Similarity [" << indicate << "," << row << "]: " << norm_dot(redV.row(indicate), redV.row(row)) << endl; 
} 
+0

为什么不只是使用[norm_dot()](http://arma.sourceforge.net/docs。 html#dot)函数呢? – hbrerkere

+0

谢谢你的建议。我想到了同样的结果。当sm在matlab上做同样的计算时,我得到的数字略有不同.. –

+1

您还没有显示完整的代码。计算'相似性[1,0]'的代码是什么?显示如何使用'cosine_similarity()'的具体示例。 – hbrerkere

回答

1

你的代码似乎是正确的,你只是遇到机器精度问题。 A*B.t()A第三行和B第二行(反之亦然)应该为零但不是,但在机器精度内。 Scipy’s cosine有同样的问题:

In [10]: from scipy.spatial.distance import cosine 

In [11]: 1 - cosine([-0.2590, -0.7052, 0.6590, -0.0371], [-0.0230, 0.0082, -0.0400, -0.7056]) 
Out[11]: -1.114299639159988e-05 # <=============== should not be negative! 

(我用1减去的只是因为SciPy的是如何定义cosine因为你发布的只有四个小数这个答案不匹配你点,但点睛之笔,它是消极的。 )

如果你想检查浮点数x是否是另一个y机器精度内,比较其与std::numeric_limits::epsilon差异。请参阅almost_equal here的定义。您可能想要cosine_similarity检查结果是否为almost_equal为0或1,在这种情况下返回0或1.