cluster-analysis

    0热度

    2回答

    我正在处理一组坐标,并且想要动态地(我有很多组需要经过这个过程)了解数据中有多少个不同的组。我的方法是应用k-means来调查它是否会找到质心,我可以从那里去。 当使用6个不同的聚类(直观地)绘制某些数据时,k-means算法继续忽略两个重要的聚类,同时将多个质心置入另一个。 见图像下面: 红是坐标数据点和蓝色是质心的是k均值提供。在这个特定情况下,我已经达到了15个(任意),但它仍然不能识别右侧

    -3热度

    2回答

    怎样才能约束行列数聚类是相同的(例如,用于在成对矩阵找到组)。 在文档,你可以把行或山坳集群开/关,但它是相互独立的。

    1热度

    2回答

    问题描述 期间运行内存我有45000短的时间序列(长度为9),并希望计算用于聚类分析的距离。我意识到这将导致(大小为三角形的)45000x45000大小的矩阵,这是一个具有超过20亿条目的矩阵。不出所料,我得到: > proxy::dist(ctab2, method="euclidean") Error: cannot allocate vector of size 7.6 Gb 我该怎么

    2热度

    2回答

    我有以下类型的数据/剧情 只看单独的数据点,这几乎是不可能判断其中峰是应该的,但如果在ggplot与2D密度平滑拉我得到这些非常漂亮的山峰,在那里我可以直观地计算出〜我想要找到的10组点数。 “有效团体”的确切数量当然是要讨论的。 数据在这里: https://pastebin.com/5wquw7UF library(ggplot2) library(colorRamps) library(

    0热度

    1回答

    我有一个皮尔森相关矩阵与不同的食物是如何相互关联的。 我想创建可以一起分析的食物组,因此我想将它们分类为聚类。 我想这些食物聚类为使用下列标准分类: 1)我想在每个簇的最大化相关 2)我想建立一个最小相关的每个组(即每个群集需要具有> 0.7的相关性)。 是否有机器学习算法适用于这种情况。

    0热度

    2回答

    我最近发布了一个关于这样做的正确方法的“非常新颖的R”问题,如果你对它感兴趣,你可以在这里找到它。 1 我现在已经设法开发出一个简单的R脚本来完成这项工作,但现在结果让我感到困扰。其中零假设是所述点随机分布 我使用R键分析lpp(线性点模式)与mad.test。那功能长话短说执行假设检验。目前我有88 lpps来分析,而根据p.value其中86个是随机分布的,其中2个不是。 这些是两个没有随机分

    0热度

    3回答

    我正在使用doc2vec转换我的追随者在向量表示中的前100个推文(称为v1 ..... v100)。之后,我使用向量表示来完成K均值聚类。 model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) 我可以看到集群0被某些值(比如v10,v12,v23,...)所支配。我的问题是这

    1热度

    2回答

    我想使用轮廓分数为我的数据集选择最佳数量的簇。我的数据集是关于2,000多个品牌的信息,包括购买此品牌的客户数量,品牌的销售量以及品牌在各类别下销售的商品数量。 由于我的数据集非常稀疏,因此我在集群之前使用了MaxAbsScaler和TruncatedSVD。 我使用的聚类方法是k-means,因为我最熟悉这个(我会感谢你对其他聚类方法的建议)。 当我将群集数量设置为80并运行k均值时,每次都得到

    2热度

    1回答

    我有一个庞大的位矢量(BV)列表,我想要在集群中组合。 这个集群背后的想法是能够从每个集群中选择较晚的BVs,并将它们组合以生成BV(几乎)全部(必须最大化)的BV。 例如,想象1表示应用程序已启动,0在特定时刻在节点X中关闭。我们想找到节点的分列表具有应用最多: App BV for node X in cluster 1: 1 0 0 1 0 0 App BV for node Y

    -2热度

    1回答

    我有不同的数据类型的列(如列:产品编号,名称,大小,颜色,等级,部门等)的表,因为不是所有列是数字的,我怎么能聚集同类产品一起。数据位于Netezza中,为了快速处理,我只想在数据量巨大时(大约200万行)在数据库端执行此操作。 我试图在R中实现Gower的相似性,但它需要很长时间。有没有我可以在netezza上使用的UDF? dput(头(PROD)) 结构(列表(Product_key = C