2010-05-18 100 views
1

我发现文档之间的余弦相似..我做了这样的约余弦相似

D1 =(8,0,0,1),其中8,0,0,1是的TF-IDF得分术语T1,T2,T3,T4

D2 =(7,0,0,1)

COS(THETA)=(56 + 0 + 0 + 1)/ SQRT(64 + 49)SQRT (1 +1)

其中出来是

COS(THETA)= 5

现在我该如何评估这个值......我不明白cos(θ)= 5是什么意思,它们表明它们之间的相似性......我是否正确地做事?

+1

COS( theta)总是在-1和1之间。你做错了什么。另外,这功课呢? – 2010-05-18 18:36:55

+0

是啊...分配 – jaskirat 2010-05-18 18:40:40

回答

2

分母是错误的。

cosine similarity被定义为

  D1 · D2 
sim = ——————————— 
     |D1| |D2| 

这里

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57 
      ______________________ __ 
    |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50 
      ______________________ __ 
    |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65 

所以相似度应为(57 /√(50 * 65))= 0.999846142,不5.

+0

哦,我忽略了零值....我多么愚蠢......谢谢你kennyTM ...非常感谢你... – jaskirat 2010-05-18 18:40:59

+0

@jaskirat:你没有忽略零值。你计算了| D1 |和| D2 |错。没有什么是√(7^2 + 8^2)。 – kennytm 2010-05-18 18:43:23

+0

哦kk ...以及我从 参考http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html ... – jaskirat 2010-05-18 18:51:55