我发现文档之间的余弦相似..我做了这样的约余弦相似
D1 =(8,0,0,1),其中8,0,0,1是的TF-IDF得分术语T1,T2,T3,T4
D2 =(7,0,0,1)
COS(THETA)=(56 + 0 + 0 + 1)/ SQRT(64 + 49)SQRT (1 +1)
其中出来是
COS(THETA)= 5
现在我该如何评估这个值......我不明白cos(θ)= 5是什么意思,它们表明它们之间的相似性......我是否正确地做事?
我发现文档之间的余弦相似..我做了这样的约余弦相似
D1 =(8,0,0,1),其中8,0,0,1是的TF-IDF得分术语T1,T2,T3,T4
D2 =(7,0,0,1)
COS(THETA)=(56 + 0 + 0 + 1)/ SQRT(64 + 49)SQRT (1 +1)
其中出来是
COS(THETA)= 5
现在我该如何评估这个值......我不明白cos(θ)= 5是什么意思,它们表明它们之间的相似性......我是否正确地做事?
分母是错误的。
的cosine similarity被定义为
D1 · D2
sim = ———————————
|D1| |D2|
这里
D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
______________________ __
|D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
______________________ __
|D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65
所以相似度应为(57 /√(50 * 65))= 0.999846142,不5.
哦,我忽略了零值....我多么愚蠢......谢谢你kennyTM ...非常感谢你... – jaskirat 2010-05-18 18:40:59
@jaskirat:你没有忽略零值。你计算了| D1 |和| D2 |错。没有什么是√(7^2 + 8^2)。 – kennytm 2010-05-18 18:43:23
哦kk ...以及我从 参考http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html ... – jaskirat 2010-05-18 18:51:55
COS( theta)总是在-1和1之间。你做错了什么。另外,这功课呢? – 2010-05-18 18:36:55
是啊...分配 – jaskirat 2010-05-18 18:40:40