cluster-analysis

    0热度

    1回答

    我正在Python中构建k-means聚类模型。但是,我不确定如何保存群集质心以及如何将它们用于未来的评分目的。 当我稍后使用模型时,我总是希望分配相同的群集ID。 我会很感激,如果有人有一个明确的代码来演示如何做到这一点。 更新: @HannounYassir嗨,肯定,对不起,我应该以前也做过这样的: 想象一下,我的数据集的名字是data_clean和所有的变量都是标准化和前手清洗。 # def

    3热度

    1回答

    我正在使用pyspark.ml.clustering库来处理虹膜数据集,以便了解pyspark的基本原理并为我创建一个聚类模板。 我的火花版本是2.1.1,我有hadoop 2.7。 我知道KMEANS和BisectingKMeans有computeCost()方法,给出了基于输入点及其相应的聚类中心之间的距离平方之和模型的性能。 有没有办法将KMeans模型性能与虹膜数据集上的GaussianM

    -1热度

    1回答

    我已经得到了6个txt文件,其中填充了关于同一个域但是不同主题的问题(每个文件包含不同主题的问题),我的目标是聚集这些文件以便更好地查看相似性的科目。 我已经删除了停用词,应用了词干化过程,应用了TF-IDF分数(我已经在数据框的形式下得到了它,结果是一个包含200个词(列)和6个主题的数据框行)),但我米奋力知道如何应用k均值或DBSCAN的聚类方法,并最终如何评价我的聚类方法的性能.. 感谢提

    -1热度

    2回答

    我有一个包含200个模型的文本文件,与eachother相比,每个模型的分子距离相比较。它看起来像这样: 1 2 1.2323 1 3 6.4862 1 4 4.4789 1 5 3.6476 . . 所有下降至200,其中第一号是第一个模型的方式,当这两个模型相比,第二个数字是第二种模式,第三个数字对应的分子距离。 我可以想出一种方法将它导入到R中,并创建一个很好的200x200矩

    1热度

    1回答

    我在R中使用了dist函数,我想知道它的时间复杂度。 我知道层次聚类的时间复杂度为N^2*logN。层次聚类由R中的两部分代码组成。 > d <- dist(as.matrix(mtcars)) # find distance matrix > hc <- hclust(d) # apply hirarchical clustering > plot(hc) # plot th

    1热度

    1回答

    我正在研究包含论坛主题内容的数据库(第一篇文章+回复)。我想根据第一篇文章的主题对这些文档进行分组/聚类。 我计算了LDA/LSI主题并尝试了K均值聚类,但我找不到有关如何从群集获取相关文本文档的文档。我只得到每个集群的主要特征,但我希望整个文档或像每个集群关联的某个ID。 我也尝试过使用已知机器学习算法的分类器和推荐器,但是他们的结果并不是很有用。我也尝试使用word2vec和doc2vec计算

    0热度

    1回答

    所以我对python(和R)和单词向量很陌生,一直在坚持如何完成我的下一步学习如何可视化。虽然我正在尝试使用python,但我仍然愿意将其应用于R。我将简要解释我得到了多少以及我想去哪里。 因此,我有一个用户列表,收到与该用户关联的10部电影的列表。我已经设法得到清单,创建一个输出csv文件,并匹配用户属性,如性别,年龄,位置等。我已经提取和创建了电影的属性,以及类型和制作年份。 但接下来,我试图

    -1热度

    2回答

    我必须将我的人口聚类在8 clusters。我正在使用proc fastclus和k-means方法(以最小化群集之间的差异)。观察结果代表一个分数,所以即使在聚类过程之后,它们仍然是有序的。我注意到这样: proc sort data=input.population; by score; run; proc fastclus data = input.population

    -5热度

    1回答

    我有一个线性方程来聚集一些查询,我想调整超参数。现在我想知道我可以使用“网格搜索”进行“k-means”聚类吗?或者它不能用于k-means? 在我的工作中,我将数据分成80-20比例,80%的数据用于训练模型,20%用于测试。 TNX

    1热度

    1回答

    我想了解scipy.cluster.vq.kmeans。 在2D空间中分布有许多点,问题是将它们分组为簇。这个问题引起了我的关注,读取this question,我在想,scipy.cluster.vq.kmeans将要走。 这是数据: 使用下面的代码,所述目的将是获得每个25簇的中心点。 import numpy as np import matplotlib.pyplot as plt f