2013-05-12 77 views
0

我对这个网站以及聚类分析的新手都很陌生,所以我很抱歉如果违反了约定。Cluster 3.0中的分层聚类分析

我一直在使用Cluster 3.0来执行欧几里德距离和平均链接的分层聚类分析。 Cluster 3.0输出.gtr文件,其中包含连接基因的节点及其相似度分数。我注意到,.gtr文件中的第一行总是将一个基因与另一个基因连接,然后是相似性分数。但是,如何再现这种相似性分数?

在我的数据集中,我有8个基因,并创建一个距离矩阵,其中d_ {ij}包含基因i和基因j之间的欧几里得距离。然后,我通过将每个元素除以矩阵中的最大值来规范矩阵。为了得到相似度矩阵,我从1中减去所有元素。但是,我的结果不使用连接类型,并且与输出相似度得分不同。

我主要困惑的是,链接如何影响第一个节点(两个最接近的基因的连接)的相似性以及如何计算相似性分数。

谢谢!

+0

Cluster 3.0使用哪种相似性函数,以及它如何预处理(缩放!)数据? – 2013-05-23 16:16:40

回答

1

算法比较集群使用某种联动方法,而不是数据点。然而,在算法的第一次迭代中,每个数据点形成它自己的簇;这意味着您的链接方法实际上被缩减为您用来衡量数据点之间距离的度量(对于您的情况欧几里得距离)。对于后续的迭代,簇之间的距离将根据您的链接方法进行测量,在您的情况下为平均链接。对于两个集群,这被计算如下:

enter link description here

其中d(a,b)是两个数据点之间的欧几里得距离。相信当AB只包含一个数据点(如在第一次迭代中那样)时,该等式自身降低到d(a,b)。我希望这可以让事情变得更加清晰。如果没有,请提供更多关于你想要做什么的细节。