k-means

    0热度

    1回答

    我有使用tm包创建的文档的语料库,并且我使用相同的包制作了文档术语矩阵。我想用k-means聚类来聚集文档。我使用欧几里德距离,所以我首先对矢量进行归一化处理,以使欧几里得变得有意义。但是,规范化时,它会为一个特定文档创建'NaN'值,我不知道为什么。该代码使用: m = dtm norm_eucl = function(m) m/apply(m, MARGIN=1, FUN=function(

    1热度

    2回答

    我试图从SkLearn中使用Kmeans算法构建一组数据。我想知道如何确定算法是否实际收敛到数据解决方案。 我们提供tol参数来定义收敛容差,但也有一个参数定义了算法为每次运行执行的迭代次数。我发现该算法可能并不总是在迭代的max_iter时间内收敛。那么是否有任何属性或函数可以访问,以便知道算法是否在迭代之前收敛?

    1热度

    1回答

    我训练AK意味着我的数据集模型,现在我想获得从每个集群的几个要素与集群ID val clusters = KMeans.train(data, numClusters, numIterations) val vectorsAndClusterIdx = data.map{ point => val prediction = clusters.predict(point) (

    2热度

    1回答

    该代码找到每个列表中的最小项目,我想将该数据点添加到基于它所来自的列表的 列表中。我也希望能够找到每个群集的均值。 import numpy as np centroids = np.array([[3,44],[5,15],[99,12]]) dataPoints = np.array([[2,4],[17,4],[45,2],[45,7],[16,32],[32,14],[20,56],

    0热度

    1回答

    我想测量OpenIMAJ库中KMColourSegmenter执行聚类所用的时间。 如果我没有使初始质心固定,而不是随机的,我不能使测量的性能;因为它每次都会改变,给出不同数量的迭代,并且在执行聚类时会有所不同。 那么如何使初始质心固定即手动设置? 更新: @乔恩感谢您的回答,我想实现你说的话。你能检查它,特别是“簇”数组我认为这个数组没有意义初始化。请纠正我,如果我错了。 public clas

    0热度

    1回答

    我是R中的初学者,我在K均值聚类上跟随this tutorial。但是,我试图在真实数据上运行此算法。我选择:http://exoplanet.eu/catalog/ 我已经加载的数据: d <- read.csv2( "exoplanet.eu_catalog.csv", header = TRUE, sep = "," ) 有了这个代码: plot(

    1热度

    1回答

    我一直在尝试使用像素作为数据来实现图像压缩的k均值,k作为质心数量。我不断收到一个错误:IndexError: invalid index to scalar variable.;在if assignment[i] == j:的比较声明中。我决定首先计算初始质心,然后用它将数据点聚类到正确的质心。然后使用赋值变量重新计算质心到argmin中。 我的代码: def mykmeans(pixels,

    1热度

    1回答

    library(cluster) km.res <- kmeans(my_data, 4, nstart = 25) # Visualize library("factoextra") fviz_cluster(km.res, data = my_data, frame.type = "convex")+ theme_minimal() 我想

    0热度

    1回答

    我有大量的数据,我想运行kmean分类。数据集非常大,我无法将文件加载到内存中。 我的想法是像训练数据集一样在数据集的某些部分上运行分类,然后逐个部分地将数据集应用到数据集的其余部分。 import pandas as pd import pickle from sklearn.cluster import KMeans frames = [pd.read_hdf(fin) for fin

    0热度

    2回答

    我有一个具有两个属性的点数据集,我想根据属性值对这些点进行聚类。我想使用K均值聚类,但我不确定使用Scipy实现时我的输入数据应该如何。 例如,我应该制作一个numpy数组,每行包含:FID,属性1,属性2,x-coord,y-coord或仅包含属性值的数组?属性是整数和浮点数。