我已经在Calculating Word Proximity in an inverted Index处提出了类似的问题。 但是我觉得这个问题太笼统了,还不够完善。所以在这里。计算用于计算邻近度的点积
我有一个列表,其中包含文档中的标记位置。对于每个令牌它会为
public List<int> hitLocation;
比方说在该文件是
Java programming language has a name similar to java island in Indonesia however
local language in java bears no resemblance to the programming language called java.
和查询
java island language
所以说我锁定到Java结果列表,直接尝试计算Java HisList,Island HitList和Language Hitlist之间的距离。
现在第一个问题是句子中有4个java令牌出现。我选择哪一个。假设我选择了第一个。
我进入岛标记列表,并在比较后发现它与第二次出现的java相邻。所以我改变我的选择并锁定到第二次出现的Java。
继续使用第三种标记语言,我发现它位于距离我们的选择很远的地方,但是我发现它距离第一个Java事件很近。
所以你看到这里的困境,如果现在再次恢复到原来的选择,即Java的第一次出现的距离第二个令牌“岛”增加,如果我留在我目前的选择第二次出现的绝对距离令牌“语言”会使相关性破坏。
以前有点产品的建议,但我对如何继续前进该选项的损失。
任何其他解决方案也将受到欢迎。
我明白这个问题很详细。不过,我已经搜索了很长时间,并且没有在这个主题上发现任何类似的问题。
我觉得如果这个问题得到解答,它将成为社区的一个很好的补充,并且会让任何设计任何与相关性相关的东西都相当开心。
谢谢。