k-means

0热度

1回答

我有点困惑与SSB计算群集评价凡 |Ci| is the size of cluster i ci is the centroid of cluster i c is the centroid of the overall data 这是什么“的总体数据的心”？无处不在，它被称为整体数据的质心。这是我们计算的初始质心吗？编辑多一点澄清anony - 摩丝的答案。可以说我们在聚类

0热度

1回答

APPLY_KMEANS如何在Vertica中工作

我正在测试Vertica中的机器学习工具。我知道KMEANS是如何工作的，因为它只是将数据分配到群集中。但是我不明白APPLY_KMEANS如何处理新数据。在我看来，它更像是一种分类方法。由于它对现有集群中的新数据进行分类。那么使用什么算法（K近邻）？从文档中不太清楚。

-1热度

1回答

鸣叫语义分析后的聚类

我想聚集一组推文。我已经找回了推文，将它们清理干净，然后将NaïveBayes分类器应用于它们，并将它们分为正面和负面两个文件。最后，我也做了以下搜索每个鸣叫之间的相似之处： with open("positive.txt", "r") as pt: lines = pt.readlines() for lineA in lines: vectorA = te

-7热度

2回答

这段代码片段究竟做了什么？

int max = 0, id = 0; int indx= 0; vector<int> clusters(k,0); for (size_t i = 0; i < bestLabels.size(); i++) { id = bestLabels[i]; clusters[id]++; if (clusters[id] > max) {

0热度

1回答

K均值颜色聚类 - 省略背景像素与蒙面numpy阵列

我试图找到使用K均值聚类的几个图像的3个主色。我面临的问题是K-means也聚集了图像的背景。我正在使用Python 2.7和OpenCV 3 所有图像都具有以下RGB颜色的相同灰色背景：150,150,150。为了避免K-means对背景颜色进行聚类，我创建了一个蒙版数组，掩盖了来自原始图像数组的所有'150'像素值，理论上只留下数组中的非背景像素以供K-Means使用。但是，当我运行我的脚本时

5热度

3回答

初始化错误SparkContext：主URL必须在配置

我用this code 我的错误是设置： Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 17/02/03 20:39:24 INFO SparkContext: Running Spark version 2.1.0 17/02/03 20:39:25 WARN NativeC

0热度

1回答

在python中组合2个RDD Spark

我有2个RDD。假设rdd1 = {'a'，'b'，'c'，'a'，'c'，'a'}并且rdd2是具有如下集群分配的KMeans的输出 - > rdd2 = {0,0,1 ，1,1,0}。我想最终找出群集0和1中有多少个a和b。例如，0有2个，就像{0，a，2}等等。有没有一种方法可以将这2个RDDS合并为一个这样的操作？感谢您的帮助。

2热度

1回答

为给定的十六进制颜色代码向geom_tile单元指定特定颜色

我需要帮助为gxplot + geom_tile（）指定一个86x86矩阵的正确十六进制颜色代码。这是一个相关矩阵，我想根据kmeans聚类生成的值和类对它进行着色。有六种不同的聚类/颜色。下面是伪代码： value[i,j] < 0.7, color '#FBB4AE' value[i] == value[j] then color it according to its cluster va

0热度

1回答

IDL中的K均值聚类

我是一名IDL初学者，我想知道是否可以在IDL中获得一些帮助。我在Harris Geospatial上找到了一个很好的例子来解释这个方法，但是我对如何在我自己的数据上运行集群（ASCII）来执行K均值分析感到困惑。我如何使用而不是产生随机数下面是我对哈里斯发现代码中的“随机”功能我的数据： n = 50 c1 = RANDOMN(seed, 3, n) c1[0:1,*] -= 3 c2

0热度

1回答

按客户群分组

我是数据库新手，我对k-means（或任何）聚类算法有更多的理论问题。在这一刻，我正试图根据行为数据进行客户细分。我们设计的一些属性，如： - 即一个客户购买销售的产品，百分比 - 的产品，平均每一次 - 每个产品平均价格 - 和其他几个人 - 购买产品的商店的频率。我们正在努力完成的是一群彼此行为相似的客户，因此我们可以根据他们的偏好与他们沟通。问题在于，我不确定聚类的结果是否能给我们提