k-means

    0热度

    1回答

    我有点困惑与SSB计算群集评价 凡 |Ci| is the size of cluster i ci is the centroid of cluster i c is the centroid of the overall data 这是什么“的总体数据的心”? 无处不在,它被称为整体数据的质心。 这是我们计算的初始质心吗? 编辑 多一点澄清anony - 摩丝的答案。 可以说我们在聚类

    0热度

    1回答

    我正在测试Vertica中的机器学习工具。我知道KMEANS是如何工作的,因为它只是将数据分配到群集中。但是我不明白APPLY_KMEANS如何处理新数据。 在我看来,它更像是一种分类方法。由于它对现有集群中的新数据进行分类。那么使用什么算法(K近邻)?从文档中不太清楚。

    -1热度

    1回答

    我想聚集一组推文。我已经找回了推文,将它们清理干净,然后将NaïveBayes分类器应用于它们,并将它们分为正面和负面两个文件。最后,我也做了以下搜索每个鸣叫之间的相似之处: with open("positive.txt", "r") as pt: lines = pt.readlines() for lineA in lines: vectorA = te

    -7热度

    2回答

    int max = 0, id = 0; int indx= 0; vector<int> clusters(k,0); for (size_t i = 0; i < bestLabels.size(); i++) { id = bestLabels[i]; clusters[id]++; if (clusters[id] > max) {

    0热度

    1回答

    我试图找到使用K均值聚类的几个图像的3个主色。我面临的问题是K-means也聚集了图像的背景。我正在使用Python 2.7和OpenCV 3 所有图像都具有以下RGB颜色的相同灰色背景:150,150,150。为了避免K-means对背景颜色进行聚类,我创建了一个蒙版数组,掩盖了来自原始图像数组的所有'150'像素值,理论上只留下数组中的非背景像素以供K-Means使用。但是,当我运行我的脚本时

    5热度

    3回答

    我用this code 我的错误是设置: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 17/02/03 20:39:24 INFO SparkContext: Running Spark version 2.1.0 17/02/03 20:39:25 WARN NativeC

    0热度

    1回答

    我有2个RDD。假设rdd1 = {'a','b','c','a','c','a'}并且rdd2是具有如下集群分配的KMeans的输出 - > rdd2 = {0,0,1 ,1,1,0}。我想最终找出群集0和1中有多少个a和b。例如,0有2个,就像{0,a,2}等等。有没有一种方法可以将这2个RDDS合并为一个这样的操作? 感谢您的帮助。

    2热度

    1回答

    我需要帮助为gxplot + geom_tile()指定一个86x86矩阵的正确十六进制颜色代码。这是一个相关矩阵,我想根据kmeans聚类生成的值和类对它进行着色。有六种不同的聚类/颜色。下面是伪代码: value[i,j] < 0.7, color '#FBB4AE' value[i] == value[j] then color it according to its cluster va

    0热度

    1回答

    我是一名IDL初学者,我想知道是否可以在IDL中获得一些帮助。我在Harris Geospatial上找到了一个很好的例子来解释这个方法,但是我对如何在我自己的数据上运行集群(ASCII)来执行K均值分析感到困惑。我如何使用而不是产生随机数 下面是我对哈里斯发现代码中的“随机”功能我的数据: n = 50 c1 = RANDOMN(seed, 3, n) c1[0:1,*] -= 3 c2

    0热度

    1回答

    我是数据库新手,我对k-means(或任何)聚类算法有更多的理论问题。在这一刻,我正试图根据行为数据进行客户细分。我们设计的一些属性,如: - 即一个客户购买销售的产品, 百分比 - 的产品,平均每一次 - 每个产品 平均价格 - 和其他几个人 - 购买产品的商店 的频率。 我们正在努力完成的是一群彼此行为相似的客户,因此我们可以根据他们的偏好与他们沟通。问题在于,我不确定聚类的结果是否能给我们提