cluster-analysis

0热度

2回答

我正在处理一组坐标，并且想要动态地（我有很多组需要经过这个过程）了解数据中有多少个不同的组。我的方法是应用k-means来调查它是否会找到质心，我可以从那里去。当使用6个不同的聚类（直观地）绘制某些数据时，k-means算法继续忽略两个重要的聚类，同时将多个质心置入另一个。见图像下面：红是坐标数据点和蓝色是质心的是k均值提供。在这个特定情况下，我已经达到了15个（任意），但它仍然不能识别右侧

-3热度

2回答

一个如何使seaborn的ClusterMap集群行和cols共同

怎样才能约束行列数聚类是相同的（例如，用于在成对矩阵找到组）。在文档，你可以把行或山坳集群开/关，但它是相互独立的。

1热度

2回答

R个时间系列距离计算

问题描述期间运行内存我有45000短的时间序列（长度为9），并希望计算用于聚类分析的距离。我意识到这将导致（大小为三角形的）45000x45000大小的矩阵，这是一个具有超过20亿条目的矩阵。不出所料，我得到： > proxy::dist(ctab2, method="euclidean") Error: cannot allocate vector of size 7.6 Gb 我该怎么

2热度

2回答

优化修剪的K-means用于聚类具有多个异常值的2D数据？更好的方法？

我有以下类型的数据/剧情只看单独的数据点，这几乎是不可能判断其中峰是应该的，但如果在ggplot与2D密度平滑拉我得到这些非常漂亮的山峰，在那里我可以直观地计算出〜我想要找到的10组点数。 “有效团体”的确切数量当然是要讨论的。数据在这里： https://pastebin.com/5wquw7UF library(ggplot2) library(colorRamps) library(

0热度

1回答

基于相关性的聚类

我有一个皮尔森相关矩阵与不同的食物是如何相互关联的。我想创建可以一起分析的食物组，因此我想将它们分类为聚类。我想这些食物聚类为使用下列标准分类： 1）我想在每个簇的最大化相关 2）我想建立一个最小相关的每个组（即每个群集需要具有> 0.7的相关性）。是否有机器学习算法适用于这种情况。

0热度

2回答

用lpp测试CSR与R

我最近发布了一个关于这样做的正确方法的“非常新颖的R”问题，如果你对它感兴趣，你可以在这里找到它。 1 我现在已经设法开发出一个简单的R脚本来完成这项工作，但现在结果让我感到困扰。其中零假设是所述点随机分布我使用R键分析lpp（线性点模式）与mad.test。那功能长话短说执行假设检验。目前我有88 lpps来分析，而根据p.value其中86个是随机分布的，其中2个不是。这些是两个没有随机分

0热度

3回答

如何在使用Doc2vec后解析群集结果？

我正在使用doc2vec转换我的追随者在向量表示中的前100个推文（称为v1 ..... v100）。之后，我使用向量表示来完成K均值聚类。 model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) 我可以看到集群0被某些值（比如v10，v12，v23，...）所支配。我的问题是这

1热度

2回答

相同数据和簇数的不同轮廓分数

我想使用轮廓分数为我的数据集选择最佳数量的簇。我的数据集是关于2,000多个品牌的信息，包括购买此品牌的客户数量，品牌的销售量以及品牌在各类别下销售的商品数量。由于我的数据集非常稀疏，因此我在集群之前使用了MaxAbsScaler和TruncatedSVD。我使用的聚类方法是k-means，因为我最熟悉这个（我会感谢你对其他聚类方法的建议）。当我将群集数量设置为80并运行k均值时，每次都得到

2热度

1回答

查找“补充”位矢量集群

我有一个庞大的位矢量（BV）列表，我想要在集群中组合。这个集群背后的想法是能够从每个集群中选择较晚的BVs，并将它们组合以生成BV（几乎）全部（必须最大化）的BV。例如，想象1表示应用程序已启动，0在特定时刻在节点X中关闭。我们想找到节点的分列表具有应用最多： App BV for node X in cluster 1: 1 0 0 1 0 0 App BV for node Y

-2热度

1回答

k均值实现混合变量在数据库级

我有不同的数据类型的列（如列：产品编号，名称，大小，颜色，等级，部门等）的表，因为不是所有列是数字的，我怎么能聚集同类产品一起。数据位于Netezza中，为了快速处理，我只想在数据量巨大时（大约200万行）在数据库端执行此操作。我试图在R中实现Gower的相似性，但它需要很长时间。有没有我可以在netezza上使用的UDF？ dput（头（PROD））结构（列表（Product_key = C