k-means

0热度

1回答

我有使用tm包创建的文档的语料库，并且我使用相同的包制作了文档术语矩阵。我想用k-means聚类来聚集文档。我使用欧几里德距离，所以我首先对矢量进行归一化处理，以使欧几里得变得有意义。但是，规范化时，它会为一个特定文档创建'NaN'值，我不知道为什么。该代码使用： m = dtm norm_eucl = function(m) m/apply(m, MARGIN=1, FUN=function(

1热度

2回答

Sklearn K表示聚类收敛

我试图从SkLearn中使用Kmeans算法构建一组数据。我想知道如何确定算法是否实际收敛到数据解决方案。我们提供tol参数来定义收敛容差，但也有一个参数定义了算法为每次运行执行的迭代次数。我发现该算法可能并不总是在迭代的max_iter时间内收敛。那么是否有任何属性或函数可以访问，以便知道算法是否在迭代之前收敛？

1热度

1回答

获得集群和集群的第一要素IDS k均值火花

我训练AK意味着我的数据集模型，现在我想获得从每个集群的几个要素与集群ID val clusters = KMeans.train(data, numClusters, numIterations) val vectorsAndClusterIdx = data.map{ point => val prediction = clusters.predict(point) (

2热度

1回答

如何将元素添加到另一个列表中的列表？

该代码找到每个列表中的最小项目，我想将该数据点添加到基于它所来自的列表的列表中。我也希望能够找到每个群集的均值。 import numpy as np centroids = np.array([[3,44],[5,15],[99,12]]) dataPoints = np.array([[2,4],[17,4],[45,2],[45,7],[16,32],[32,14],[20,56],

0热度

1回答

如何在OpenIMAJ库中设置KMColourSegmenter的初始质心？

我想测量OpenIMAJ库中KMColourSegmenter执行聚类所用的时间。如果我没有使初始质心固定，而不是随机的，我不能使测量的性能;因为它每次都会改变，给出不同数量的迭代，并且在执行聚类时会有所不同。那么如何使初始质心固定即手动设置？更新： @乔恩感谢您的回答，我想实现你说的话。你能检查它，特别是“簇”数组我认为这个数组没有意义初始化。请纠正我，如果我错了。 public clas

0热度

1回答

R中的K均值聚类

我是R中的初学者，我在K均值聚类上跟随this tutorial。但是，我试图在真实数据上运行此算法。我选择：http://exoplanet.eu/catalog/ 我已经加载的数据： d <- read.csv2( "exoplanet.eu_catalog.csv", header = TRUE, sep = "," ) 有了这个代码： plot(

1热度

1回答

图像压缩中的K均值numpy错误

我一直在尝试使用像素作为数据来实现图像压缩的k均值，k作为质心数量。我不断收到一个错误：IndexError: invalid index to scalar variable.;在if assignment[i] == j:的比较声明中。我决定首先计算初始质心，然后用它将数据点聚类到正确的质心。然后使用赋值变量重新计算质心到argmin中。我的代码： def mykmeans(pixels,

1热度

1回答

factoextra软件包：如何使用可变轴而非PCA组件轴绘制我的集群？

library(cluster) km.res <- kmeans(my_data, 4, nstart = 25) # Visualize library("factoextra") fviz_cluster(km.res, data = my_data, frame.type = "convex")+ theme_minimal() 我想

0热度

1回答

Python：加载kmeans训练数据集并使用它来预测新的数据集

我有大量的数据，我想运行kmean分类。数据集非常大，我无法将文件加载到内存中。我的想法是像训练数据集一样在数据集的某些部分上运行分类，然后逐个部分地将数据集应用到数据集的其余部分。 import pandas as pd import pickle from sklearn.cluster import KMeans frames = [pd.read_hdf(fin) for fin

0热度

2回答

K的数据输入意味着用Scipy，Python进行聚类？

我有一个具有两个属性的点数据集，我想根据属性值对这些点进行聚类。我想使用K均值聚类，但我不确定使用Scipy实现时我的输入数据应该如何。例如，我应该制作一个numpy数组，每行包含：FID，属性1，属性2，x-coord，y-coord或仅包含属性值的数组？属性是整数和浮点数。