hierarchical-clustering

3热度

1回答

ValueError：链接'Z'在Python scipy fcluster中多次使用相同的集群

当试图通过scipy.cluster.hierarchy.fcluster获取Python中的平面集群时，我得到ValueError: Linkage 'Z' uses the same cluster more than once.。这种错误有时只会发生，通常只有非常大的矩阵，例如10000x10000。 import scipy.cluster.hierarchy as sch Z = sc

0热度

1回答

在R中，试图计算列中字符串的Levenshtein距离，然后按另一列聚簇并标记

Here是我的数据集的截断版本。整套中还有更多的行。我知道我可以通过as.vector（df [，2]）将第二列转换为矢量，然后我可以将它用于距离计算。一旦我有了距离，我就会聚集在一起。但是，我想知道第一列中对应于“1”的结果是如何聚集在一起的，以及“2”，“3”等等。我会怎么做呢？

0热度

1回答

如何将树状图的节点着色为R中的单独行

我想在树状图的底部着色树状图的节点 - 但是在单独的行中下面链接中的最后一个树状图显示节点作为有色 - 然而，当它的一个大数据集，一条线变得很油腻 Label and color leaf dendrogram in r 那么是可以为每个彩色组分别行？

9热度

2回答

查找部分成员资格与k均值聚类与<code>KMeans</code> alorithm

我可以计算群集成员很容易： open System open System.IO open Utils open Accord open Accord.Math open Accord.MachineLearning let vals = [| [|1.0; 2.0; 3.0; 2.0|] [|1.1; 1.9; 3.1; 4.0|] [|2.0; 3.

1热度

1回答

二进制数据的群集技术

我想使用群集技术进行二进制数据分析。我通过调查收集了数据，其中我要求用户从94个产品功能列表中精确选择20个功能。我的数据中的列代表94个产品功能，行代表参与者。我试图根据他们选择的产品功能，将不同用户组中的类似用户群集在一起。每个用户群还应该告诉我与每个群集关联的产品功能。我正在使用一些开源的集群工具，如NCSS和JMP。我试图使用模糊聚类技术来实现我的目标，但不幸的是这些工具不处理二进制数据。

0热度

1回答

如何选择R中k-means聚类的多个初始中心

我想在R中运行buchot算法，它将hac（层次聚类）与k-means聚类相结合。因此，我想要选择多个k-means的中心。例如，其中一个群集有三个种子。这是我的代码，虹膜数据k均值 iristr <- read.csv("iristr.CSV", header = TRUE) str(iristr) iristr.m <- as.matrix(iristr[,1:4]) km <- k

1热度

1回答

如何根据密度和边缘的重量在python中找到网络集群 - networkx软件包

我使用python软件包 - networkx构建了一个网络，每个边都有一个权重，它表示两个节点之间的距离。相关。如果有一个内置的算法返回一个聚类图，将每个节点分配给它的聚类ID（1到k），那将是理想的。它甚至会更好，如果它可以基于其边的重量聚集，但不是关键... 任何想法如何可以这样做？

0热度

2回答

我应该使用多少个变量来聚集一个巨大的数据集？

我对一组44名受访者进行了一系列长期调查（没有那么多，但我做不到）。我需要使用两步分析在SPSS中对样本进行聚类，但实际上有很多变量。由于进行了6份不同的调查问卷，大约有200个量化问题（变量），更不用说定性问题了。我的第一个问题是：我应该使用所有的量化变量来执行聚类分析吗？我阅读的所有手册都会为群集解决方案选择一些选定的变量，而不是全部。第二个问题是，我试图用分层聚类所有的定量数据，但SP

0热度

1回答

如何运行群集解决方案和变量之间的关联分析？

我见过一位教授在SPSS中解释了一些分析，我需要进行相同的分析，得到相同的结果，但不知道如何;您可以建议如何执行以下分析（SPSS中的哪些功能或步骤）？ 1）在执行聚类分析（使用沃德方法）后，输出表显示每个聚类的频率，聚类1具有X个数字，聚类2具有Y个数字。 2）更困难的部分是，他使用聚类解决方案来执行R平方相关和皮尔森相关;在皮尔逊相关分析中，他用“Ward”（基于少量变量的聚类解决方案）作为独

1热度

1回答

如何获取SPSS中使用变量的数据文件？

我有数据集并使用SPSS来执行聚类分析。现在为了知道哪个阶段和步骤代表什么变量，我需要在数据文件中指出哪些变量用于实现聚类分析。我保存了群集解决方案，但它没有帮助。应该执行哪些操作或步骤来获取所需的数据文件？