2011-05-20 48 views
7

为了便于说明,我们假设这是一个论坛服务。我需要计算每个用户的信息之间的“相似性”,这样的结果会是这样的:测量文档集之间的相似度

among posts by user A, similarity 60% 
among posts by user B, similarity 20% 
... 

我处理多字节字符串,所以我想我坚持在这里搜索引擎。我们已经使用Solr,已经有更多的实现,但我不太确定如何构建查询。任何帮助感谢!

+1

您需要定义什么你认为“相似”,并要如何建模。 Levenshtein距离?马尔可夫链? – 2011-05-20 09:34:59

+0

其实我并不在意,因为我愿意让Solr的更多像这样的功能为我决定。但是,除了标准“让我获得更多像这样的文章,基于你做的相似性评分”之外,我在这里要做的是“让我在这些文章中获得相似性分数”。 – jodeci 2011-05-23 01:51:03

回答

0

有两种奇怪的问题:1.你为什么要对付SOLR? 2.这种相似性取决于目标问题。你的问题听起来对我来说太普通。在语义相似性方面正在进行研究。有编辑距离算法,这可能是或许是不是你想要的。

因此,更准确地定义你的问题,你会得到更好的答案。

相关问题