我使用向量来表示单词上下文,我需要将上下文彼此进行比较。以下是我的问题的简化版本:比较上下文向量
假设我有一个向量a=[1,1,15,2,0]
。然后我有一个向量b=[0,0,15,0,0]
和c=[1,1,11,0,1]
。当通过余弦相似性比较两个向量时,b
最接近a
。但是,由于向量代表上下文c
在我的情况下更有意义,因为b
只是恰好与原始文件共有一个词并具有相同分数的上下文。
我怎样才能返回c
最相似?另一种相似性测量或者,也许我的推理在某个地方存在缺陷?
正如我所说,这是我的问题的简化。我已经使矢量正常化,并且我正在使用对数可能性来评分上下文单词。
谢谢!
这些向量中的数字代表什么? – 2013-03-16 23:04:44