k-means

1热度

1回答

我想要使用纬度/经度作为X/Y轴和DaysUntilDueDate作为我的Z轴群集数据。我还想保留索引列（'PM'），以便以后可以使用此聚类分析创建计划。我发现here的教程非常棒，但我不知道它是否考虑了Z轴，而且我的四周没有导致任何错误。我想在代码中重要的一点是iloc位此行的参数： kmeans_model = KMeans(n_clusters=k, random_state=1).fit(

3热度

1回答

如何找到有意义的单词来表示从word2vec向量中导出的每个k-均值聚类？

我在Python中使用了gensim包来加载预先训练好的Google word2vec数据集。然后我想用k-means在我的单词向量上找到有意义的集群，并找到每个集群的代表性单词。我正在考虑使用相应向量与集群质心最接近的词来表示该集群，但不知道这是否是一个好主意，因为我的实验没有给出好的结果。我的示例代码是象下面这样： import gensim import numpy as np imp

2热度

1回答

如何使用Python将k-Means集群标签从最高位置设置到最低位置？

我有一个38套公寓的数据集，并在上午，下午和晚上用电。我正尝试使用scikit-learn的k-Means实现将此数据集群化，并获得一些有趣的结果。首先聚类结果：这一切都非常好，并用4个簇我显然得到关联到每个公寓4个标签 - 0，1，2和3。使用KMeans方法的random_state参数，我可以修复质心随机初始化的种子，因此我始终可以得到归属于相同公寓的相同标签。然而，由于这个特定的情况

1热度

1回答

基于PSO和K-means的文本文档聚类R

我是粒子群优化的新手。我阅读了关于基于PSO和K-means的聚类的研究论文，但是我没有找到相同的工作示例。任何形式的帮助都非常感谢。提前致谢！我想在R中使用PSO和K-means进行文本文档聚类。我的基本思想是，首先PSO会给我聚类质心的优化值，然后我必须使用群集质心的优化值PSO作为k-均值的初始聚类质心以获得文档簇。下面是描述我迄今为止所做的工作的代码！ #Import library

0热度

1回答

在Python中创建错误消息的集群

我有一大堆由硬件设计模拟生成的错误消息。这些消息中只有极少的语法或语言概念。没有明确定义的语法。这些消息可能包含数学表达式（在模拟中引发错误），发生错误的时间，以及随机符号（如@，：，[，]，（，）（取决于设计作者感觉如何显示！）。消息中不需要空格，并且不需要空格。我想对这组消息应用一个算法，可以将这些消息归入包含类似消息的存储桶中，以便我可以轻松识别出现的错误类型。我读了关于使用Levens

2热度

1回答

颜色分割使用Kmeans，Opencv蟒蛇

我有一个字母和不同颜色的形状的图像。我需要对它们执行kmeans聚类，然后提供两个不同的图像，一个只重新生成形状，另一个只重新生成Letter信号。这是一个示例原始图像和我需要实现的。 Original Image Shape color regenerated 并且类似地，另一个只用白色R. 我已经成功地进行k均值聚类算法，如何访问标签和集群IDX再生预期的效果？有人可以请示例代码说明。这是代

1热度

2回答

如何根据Python中的相似性或重叠来比较两个群集分组？

我想要做的事情的简单例子：比方说，我有3个数据点A，B和C.我运行KMeans聚类在这个数据上，得到2个簇[(A,B),(C)]。然后我对这个数据运行MeanShift集群并获得2个集群[(A),(B,C)]。很显然，这两种聚类方法以不同的方式聚集数据。我希望能够量化这种差异。换句话说，我可以使用什么度量来确定从两种算法获得的两个群集组之间的相似性/重叠百分比？下面是可能被给予分数的范围： 10

0热度

2回答

计算大熊猫数据框中kmeans的损失函数

我有一个包含5列的数据框。我正在尝试为三个变量X,Y和Z聚类点，并找出kmeans聚类的损失函数。下面的代码会照顾到这一点，但是如果我使用160,000行对我的真实数据框运行此操作，它需要永远！我认为它可以做得更快。 PS：看来KMeans模块在sklearn不提供损失函数，这就是为什么我写我自己的代码。 from sklearn.cluster import KMeans import num

0热度

1回答

K均值示例（tf.expand_dims）

在Tensorflow的K均值的实施例的代码，当使用函数“tf.expand_dims”在point_expanded（插入尺寸为1到张量的形状。），centroids_expanded 在计算tf.reduce_sum之前。为什么这些在第二个参数中有不同的索引（0，1）？ import numpy as np import tensorflow as tf points_n = 200

0热度

2回答

KMeans.cluster_centers_在sklearn KMeans中的值

在做K意味着适合某些具有3个集群的向量时，我可以获取输入数据的标签。 KMeans.cluster_centers_返回中心的坐标，所以不应该有一些相应的向量？我怎样才能找到这些集群质心的价值？