hierarchical-clustering

    0热度

    1回答

    我是从以下https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html library(cluster) d <- dist(t(dtmss), method="euclidian") fit <- hclust(d=d, method="ward") fit plot.n

    0热度

    1回答

    我这样做是第一次,我需要帮忙清理一些东西。 我在一台机器上安装了Ubuntu 14.04桌面,另一台机器上安装了Windows 8.1。在两台机器上也安装了相同版本的Cassandra。 有人能告诉我,是否有可能连接2台台式机,并在Cassandra中创建2个节点的集群,以及如何实现?

    -2热度

    2回答

    我用hclust来聚簇我的数据和cutree指定的群集数为3.有没有什么办法可以检查每个群集?通过检查,我的意思是列出例如在第一个集群。我尝试了所有我知道的基本功能,例如summary(),list() ...但似乎不相关。任何函数都可以这样做? 如果不是,cutree函数返回组/集群的列表,每个我的观察是属于,是这样的: 1,3,1,2,3,3,1 这表明我的第一次观察属于第1组,第二次属于第三

    0热度

    1回答

    这也许是一个愚蠢的问题,但我无法找到任何关于这个问题。 我在我的数据plant中有3个类(varieties),我进行了聚类分析。我已经获得如下表时,我想集群比较已知类: cut.complete <- cutree(cluster.complete,k=3) cc <- table(variety,cut.complete) cc cut.complete variety 1

    0热度

    1回答

    时出现错误我正在尝试使用包与pvclust包进行聚类分析。 具体来说,我有一个由物种(行)和采样站(列)组成的数据矩阵。我想执行一个CA,以便根据我的物种丰度(我之前记录(x + 1)变换)将我的采样站分组。 一旦准备好了我的矩阵,我试着根据pvclust包运行CA,使用Ward的聚类方法和Bray-Curtis作为距离索引。然而,每次我得到以下错误消息: “”在hclust(距离,方法= met

    -2热度

    1回答

    我指的是paper。在那篇论文中,他们在对文档进行分类之前聚集词汇 他们说从词汇量为35000的文档集合中,他们已经能够通过仅使用50个集群以78%的准确度对文档进行分类。 (论文的图5) 他们正在使用分裂聚类算法。我一直在寻找该算法的实现。但我找不到任何。 我在哪里可以找到该算法的实现。 (喜欢python.C/C++,java也很好) 谢谢!!

    -1热度

    1回答

    我有50个由50个矩阵组成的数据,它们代表50种期刊及其相关性。现在,我试图根据这些数据绘制图表,显示这50个期刊落在哪些集群上。 1)我更喜欢使用complete-linkage或Ward的方法来完成集群。 2)由于scikit-learn中的文档对我来说技术性太强,我坚持从何处开始聚类。 3)您能否帮我开始启动? 非常感谢您提前... 我的所有数据落在-1到1之间,因为它是相关系数。数据样本的

    1热度

    1回答

    我与R.一个新手要在一个非常易懂的方式说话,我想达到什么是这个样子 What I want the dendrogram to look like ,以及如何我得到它像一个树状图对此, How I am getting it 这是代码,我跑, tb <- read.csv("COM_PDT.csv", row.names = 1) > d = as.dist(tb) > hc.c <- hcl

    3热度

    3回答

    我最近一直在阅读关于各种hierarchical clustering algorithms,如single-linkage clustering和group average clustering。一般来说,这些算法不会很好地扩展。大多数分层聚类算法的初始实现是O(N^3),但单连接聚类可以在O(N^2)时间内实现。 还声称可以在O(N^2 logN)时间内实现组平均聚类。这是我的问题。 我根本看

    0热度

    2回答

    我试图对一组数据运行聚类分析,但无法找到适当的见解。示例:我有100个资源(列)中的一组50个变量(行)。每种资源都有一些变量,如强度和其他弱点。我将强度标记为1,弱点标记为2.因为每个资源可能只有10个变量作为强度,而5个变量作为弱点,所以其他被忽略的变量标记为0。现在,我想找到分享共同优点和缺点的资源集群。 我已经使用层次聚类和k-means转置数据集,以便资源在行中。 k-means图显示了