hierarchical-clustering

0热度

1回答

我是从以下https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html library(cluster) d <- dist(t(dtmss), method="euclidian") fit <- hclust(d=d, method="ward") fit plot.n

0热度

1回答

将两台桌面PC连接到多节点集群Cassandra

我这样做是第一次，我需要帮忙清理一些东西。我在一台机器上安装了Ubuntu 14.04桌面，另一台机器上安装了Windows 8.1。在两台机器上也安装了相同版本的Cassandra。有人能告诉我，是否有可能连接2台台式机，并在Cassandra中创建2个节点的集群，以及如何实现？

-2热度

2回答

在R中的聚类

我用hclust来聚簇我的数据和cutree指定的群集数为3.有没有什么办法可以检查每个群集？通过检查，我的意思是列出例如在第一个集群。我尝试了所有我知道的基本功能，例如summary（），list（） ...但似乎不相关。任何函数都可以这样做？如果不是，cutree函数返回组/集群的列表，每个我的观察是属于，是这样的： 1,3,1,2,3,3,1 这表明我的第一次观察属于第1组，第二次属于第三

0热度

1回答

丛集数如何揭示已知类

这也许是一个愚蠢的问题，但我无法找到任何关于这个问题。我在我的数据plant中有3个类（varieties），我进行了聚类分析。我已经获得如下表时，我想集群比较已知类： cut.complete <- cutree(cluster.complete,k=3) cc <- table(variety,cut.complete) cc cut.complete variety 1

0热度

1回答

使用''病房''方法与pvclust R包

时出现错误我正在尝试使用包与pvclust包进行聚类分析。具体来说，我有一个由物种（行）和采样站（列）组成的数据矩阵。我想执行一个CA，以便根据我的物种丰度（我之前记录（x + 1）变换）将我的采样站分组。一旦准备好了我的矩阵，我试着根据pvclust包运行CA，使用Ward的聚类方法和Bray-Curtis作为距离索引。然而，每次我得到以下错误消息： “”在hclust（距离，方法= met

-2热度

1回答

Divisive Clustering的实现

我指的是paper。在那篇论文中，他们在对文档进行分类之前聚集词汇他们说从词汇量为35000的文档集合中，他们已经能够通过仅使用50个集群以78％的准确度对文档进行分类。（论文的图5）他们正在使用分裂聚类算法。我一直在寻找该算法的实现。但我找不到任何。我在哪里可以找到该算法的实现。（喜欢python.C/C++，java也很好）谢谢!!

-1热度

1回答

在相关系数上使用Python进行分层聚类

我有50个由50个矩阵组成的数据，它们代表50种期刊及其相关性。现在，我试图根据这些数据绘制图表，显示这50个期刊落在哪些集群上。 1）我更喜欢使用complete-linkage或Ward的方法来完成集群。 2）由于scikit-learn中的文档对我来说技术性太强，我坚持从何处开始聚类。 3）您能否帮我开始启动？非常感谢您提前... 我的所有数据落在-1到1之间，因为它是相关系数。数据样本的

1热度

1回答

树状图中的R由完全连锁不正确间隔

我与R.一个新手要在一个非常易懂的方式说话，我想达到什么是这个样子 What I want the dendrogram to look like ，以及如何我得到它像一个树状图对此， How I am getting it 这是代码，我跑， tb <- read.csv("COM_PDT.csv", row.names = 1) > d = as.dist(tb) > hc.c <- hcl

3热度

3回答

群平均聚类算法的复杂性

我最近一直在阅读关于各种hierarchical clustering algorithms，如single-linkage clustering和group average clustering。一般来说，这些算法不会很好地扩展。大多数分层聚类算法的初始实现是O(N^3)，但单连接聚类可以在O(N^2)时间内实现。还声称可以在O(N^2 logN)时间内实现组平均聚类。这是我的问题。我根本看

0热度

2回答

使用虚拟编码变量在R中进行聚类分析

我试图对一组数据运行聚类分析，但无法找到适当的见解。示例：我有100个资源（列）中的一组50个变量（行）。每种资源都有一些变量，如强度和其他弱点。我将强度标记为1，弱点标记为2.因为每个资源可能只有10个变量作为强度，而5个变量作为弱点，所以其他被忽略的变量标记为0。现在，我想找到分享共同优点和缺点的资源集群。我已经使用层次聚类和k-means转置数据集，以便资源在行中。 k-means图显示了