2013-07-09 60 views
1

我在MySQL数据库中有一组850,000条目。有些条目非常相似,如按相似性分组排序

Foobar Lorem 
Foobar Ipsum 
Foobar Dolor 

如何将所有条目按相似性分组(例如至少4个相等字符)。 我无法使用LIKE运算符查询特定字符串,因为我不知道所有可能的类似条目。

我发现了一些有趣的方法(例如Levenshtein距离),但所有函数都需要至少一个参数来查找。

有什么建议吗?

/更新

它足以当字符串的开头是类似

+0

我认为你为什么没有发现,不带参数的方法的原因是,没有奔头的可能性将成倍增长 –

+1

你可以寻找到一个[聚类算法(HTTP:// jonisalonen的.com/2012/k均值聚类功能于MySQL的/)。对于'k-means',你可以选择一个随机单词作为质心,并使用levenshtein距离来聚类它们。 – David

+2

'GROUP BY SUBSTRING(col,1,6)'将会在开始时分组,如果需要修剪。或者,只需转到第一个“'”字符。 – 2013-07-09 20:08:10

回答