测量文档集之间的相似度

为了便于说明，我们假设这是一个论坛服务。我需要计算每个用户的信息之间的“相似性”，这样的结果会是这样的：测量文档集之间的相似度

among posts by user A, similarity 60% 
among posts by user B, similarity 20% 
...

我处理多字节字符串，所以我想我坚持在这里搜索引擎。我们已经使用Solr，已经有更多的实现，但我不太确定如何构建查询。任何帮助感谢！

2011-05-20 jodeci

您需要定义什么你认为“相似”，并要如何建模。 Levenshtein距离？马尔可夫链？ – 2011-05-20 09:34:59

其实我并不在意，因为我愿意让Solr的更多像这样的功能为我决定。但是，除了标准“让我获得更多像这样的文章，基于你做的相似性评分”之外，我在这里要做的是“让我在这些文章中获得相似性分数”。 – jodeci 2011-05-23 01:51:03

有两种奇怪的问题：1.你为什么要对付SOLR？ 2.这种相似性取决于目标问题。你的问题听起来对我来说太普通。在语义相似性方面正在进行研究。有编辑距离算法，这可能是或许是不是你想要的。

因此，更准确地定义你的问题，你会得到更好的答案。

2011-07-27 20:30:00

可能Carrot2会感兴趣你（和this blog与之相关的）

2011-09-15 19:09:15 Omnaest

有相似的几个措施，一个简单而有效的一个是余弦相似性。还有更复杂的，如史密斯 - 沃特曼等，

2011-12-09 05:18:41 Mikos

回答