cluster-analysis

-1热度

2回答

我正在使用K-Mode集群来对分类数据进行集群，但是当我用相同数量的集群聚集数据时，它每次都返回不同的集群大小我期待如果我使用相同的数据和相同数量的群集运行它，群集大小将始终是固定的我做错了什么？ library(klaR) mysample=read.csv("sample_to_cluster.csv") results1 <-kmodes(mysample[,2:ncol(mysam

0热度

2回答

计算大熊猫数据框中kmeans的损失函数

我有一个包含5列的数据框。我正在尝试为三个变量X,Y和Z聚类点，并找出kmeans聚类的损失函数。下面的代码会照顾到这一点，但是如果我使用160,000行对我的真实数据框运行此操作，它需要永远！我认为它可以做得更快。 PS：看来KMeans模块在sklearn不提供损失函数，这就是为什么我写我自己的代码。 from sklearn.cluster import KMeans import num

0热度

1回答

将群集摘要对象转换为数据帧

我试图从使用clValid创建的R群集验证对象中提取验证措施。当我创建对象和打印完整的总结，我用的这个下面 library(clValid) x <- clValid(iris[, -5], nClust=2:10, clMethods=c('hierarchical'), validation='internal') summary(x) 输出是： Clustering

-2热度

3回答

了解K均值聚类

我正在尝试使用Matlab学习k均值聚类算法。问题是我找不到任何示例数据，它会使它更容易理解算法。但是，我在mathworks上找到了一个指定k-均值聚类的例子。但不幸的是，我无法忍受它。我试图理解这个简单的数据集，我在Stack-overflow上找到。请，我需要一个关于k-means聚类的基本示例，如果我在任何软件（即matlab）上实现它，我将确保我正确应用它。最后，例如UCI上的所有

1热度

1回答

我可以使用k-means来聚类非完整图吗？

我想通过使用k-means聚类算法聚类连接无向图（不是一个完整的图）。我只看到k-means用于完整的图表，但我不确定是否有另一种方式可以将它应用于非完整图形中。那么，有没有人知道这件事？而且，如果k-means不能应用于连通的无向图，那么哪种算法对聚类这种图是有好处的？在此先感谢！

0热度

1回答

使用hclust加权观测频率聚类R

我有一个500K观测大型矩阵使用层次聚类进行聚类。由于尺寸较大，我没有计算能力来计算距离矩阵。为了克服这个问题，我选择聚合我的矩阵，合并那些相同的观测值，以便将我的矩阵约化为10K个观测值。我有这个聚合矩阵中每一行的频率。我现在需要将这个频率作为分层聚类中的权重。该数据是500K观测的数值和分类变量的混合，因此我使用雏菊包计算了我的聚合数据集的高尔异质性。我想在聚合数据集的统计数据包中使用hc

1热度

1回答

内存问题：使用Gower距离和k-medoids对R中的非常大的多比例数据进行聚类分析

我有一个非常大的数据框，名为'data'，有350000行和138列，我想用于k - 类群聚类。我使用从该页面的代码：http://dpmartin42.github.io/blogposts/r/cluster-mixed-types 这是我的代码： packages <- c("dplyr", "ISLR", "cluster", "Rtsne", "ggplot2") if (leng

0热度

1回答

Scikit的DBSCAN聚类算法中有噪声的样本是什么？

如果我在相似度矩阵上应用Scikit的DBSCAN（http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html），我会得到一系列标签。其中一些标签是-1。文件称他们为噪音样品。这些是什么？他们都属于一个集群，还是他们都属于他们自己的集群，因为他们很吵？谢谢

0热度

1回答

时间序列层次聚类中的R逐列

我试图使用tsclust做一个时间序列聚类和我的数据集是这样的：我有超过500与同每个8个观测时间序列时间线。我申请tsclust给它，但后来时间簇但不系列（如下）：后来我发现tsclust只能工作逐行（从www.rdocumentation.org/packages/dtwclust/versions。 /3.1.1/topics/tsclust）如果还有其他类似的功能可以用来完成聚类分析

0热度

1回答

biopython集群的简单例子

我想了解如何使用biopython进行集群基因的基本理解。可以说我有我想要分组的基因。如何将它们提供给算法，以及如何给出一个在哪个大小和数量的群集将取决于的截点？我试过直接的方法： from Bio.Cluster import kcluster list1 = [ 'ADHAMKCAIROSURBANDJVUGLOBALIZATIONANDURBANFANTASIESPLA',