k-means

    -1热度

    1回答

    我想通过使用Jaccard索引(从sklearn.metrics导入jaccard_similarity_score)计算通过使用KMeans生成的集群之间的相似性。这些可能是一个包含特定值的矩阵:在[i,j]应该是群集i和j之间的相似度。我现在代码: from sklearn import datasets from sklearn.cluster import KMeans from sk

    0热度

    1回答

    我可以在rapidminer中使用k-means来集群8000包含8000图像标签的文本文件吗?并且如果可能的话,应该选择什么是合适的K和max运行?

    0热度

    1回答

    我从.csv文件(databoth.csv)中提取了以下数据,并使用matplotlib执行了k-means聚类。数据是3列(国家,出生率,预期寿命)。 我需要帮助输出: 属于每个群集的国家数量。 属于每个群集的国家列表。 每个群集的平均预期寿命和出生率。 这里是我的代码: import csv import matplotlib.pyplot as plt import sys impor

    -1热度

    1回答

    我有几个桶。每个桶包含许多标签(字符串)。如何根据相似性或重叠将桶集中在一起? E.g. 铲斗一个: '鸵鸟', '麻雀', '蜂鸟', '斑马', '蓝鸦' 铲斗B: '香蕉', '西瓜', '葡萄', '胡萝卜' 斗C: '芹菜', '生菜', '菠菜', '香蕉', '胡萝卜' 斗d: '麻雀', '狗', '猫', '狮子',“大象','马' 在这个非常非常小的例子中,B + C会使一个群

    0热度

    1回答

    当我在阅读Pyspark here的ML包时,似乎KMeanModel没有办法计算解释的方差以绘制肘形曲线,从而确定最佳数量的聚类。 但是在this示例中,用户似乎具有computeCost()函数。该功能从哪里来?我的程序没有成功。 我正在使用Spark 1.6。提前致谢!

    2热度

    1回答

    我正在处理一个具有500个维度的640万个样本的数据集,并且我试图将它分组为200个集群。我仅限于90GB的内存,当我尝试从sklearn.cluster运行MiniBatchKmeans时,操作系统将杀死用尽太多内存的进程。 这是代码: data = np.loadtxt('temp/data.csv', delimiter=',') labels = np.genfromtxt('temp/

    0热度

    1回答

    我使用Spark ML来运行Kmeans。我有一堆数据和三个现有的中心,例如三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0]. 那么我怎么能指出Kmeans中心是上述三个向量。 我看到Kmean对象有种子参数,但种子参数是一个长类型而不是数组。那么我怎么能告诉Spark Kmeans只使用现有的聚类中心。 或者说,我不明白种子在Spark Kmeans

    0热度

    1回答

    (Matlab问题) 我有一组数据点,我想聚集到预定义的点。 我的数据点是一个MxN矩阵。每一行M是一条曲线。我想将每条曲线分配给给定的一组曲线PxN。例如。 P = 5,5追求曲线。 所以最后它应该将每个MxN曲线分配给PxN中的曲线。 最简单的方法是使用kmeans进行0次迭代。 使用相关性给了我很差的结果。 在Matlab中有一个简单的方法吗? 非常感谢您的回答。 干杯 金宝

    -1热度

    1回答

    按照作为sklearn kmeans documentation聚类,它说,k-均值需要形状=(N_SAMPLES次,n_features)的基质中。但是我提供了shape =(n_samples,n_samples)的距离矩阵,其中每个索引都保存两个字符串之间的距离。时间序列已使用SAX表示法转换为字符串。 当我跑了距离矩阵集群,它提供了良好的效果。这可能是什么原因?据我所知,K-medoids

    0热度

    1回答

    我正在尝试使用scikit-learn在训练好的k-means模型中预测一群测试文档的集群。 vectorizer = TfidfVectorizer(stop_words='english') X = vectorizer.fit_transform(train_documents) k = 10 model = KMeans(n_clusters=k, init='k-means++',