-1

说我有项目I1,...,在强大的聚类算法

我想以这样的方式来聚集他们:

  1. 如果我跑了集群很多很多次的概率。项目iJ和iK最终会在同一个集群中处于高位。
  2. 集群和集群成员的数量是相对稳定的,无论集群种子

是否有已知的算法来实现这一目标?

澄清:

说我要3个集群,说:

现实-1
  • 我开始与I1,I33,I89在现实中,2种集群C1,C2,C3
  • 我开始与I44,I55,I77作为种子簇C1,C2,C3

我想在这两个现实所产生的集群在很大程度上是相似

+1

使用**确定性**算法,如层次聚类或DBSCAN,而不是像k-means这样的随机*算法! –

回答

1

一个常见的策略使得算法在初始化方面更健壮,就是引导它。例如参见this paper

另一种选择是事先对数据进行排序并使用严格确定性的算法。

2

我认为hierarchical clustering算法会满足你的需求。

  1. 群集一致性保证下,对于相同组的,概率项IJ和IK将同一集群中结束为1
  2. 没有种子。您可以通过分析树或使用现有的截断算法(其中有很多)来选择正确数量的聚类。

[编辑]

事实上任何deterministic聚类算法具有这些功能,而不仅仅是层次聚类。

+3

实际上**任何**确定性聚类算法都具有这些特征,不仅仅是层次聚类,还有k-均值确定技术等。 – lejlot

+0

所以我的意思是说:我想要3个聚类,并说我从i1,i33开始, i89作为种子c1 c2 c3的种子,或者如果我从种子i44,i55,i77开始 - 在这两种情况下产生的簇将大致相似 - – user1172468

+1

@lejlot,true,层级聚类是我首先想到的。将更新我的答案以考虑您的评论。 user1172468:h.c.中没有种子 – CTZStef