k-means

-1热度

1回答

我想通过使用Jaccard索引（从sklearn.metrics导入jaccard_similarity_score）计算通过使用KMeans生成的集群之间的相似性。这些可能是一个包含特定值的矩阵：在[i，j]应该是群集i和j之间的相似度。我现在代码： from sklearn import datasets from sklearn.cluster import KMeans from sk

0热度

1回答

我可以在rapidminer中使用k-means吗？

我可以在rapidminer中使用k-means来集群8000包含8000图像标签的文本文件吗？并且如果可能的话，应该选择什么是合适的K和max运行？

0热度

1回答

使用matplotlib标记K-means簇数据点

我从.csv文件（databoth.csv）中提取了以下数据，并使用matplotlib执行了k-means聚类。数据是3列（国家，出生率，预期寿命）。我需要帮助输出：属于每个群集的国家数量。属于每个群集的国家列表。每个群集的平均预期寿命和出生率。这里是我的代码： import csv import matplotlib.pyplot as plt import sys impor

-1热度

1回答

如何群集字符串桶？

我有几个桶。每个桶包含许多标签（字符串）。如何根据相似性或重叠将桶集中在一起？ E.g. 铲斗一个： '鸵鸟'， '麻雀'， '蜂鸟'， '斑马'， '蓝鸦' 铲斗B： '香蕉'， '西瓜'， '葡萄'， '胡萝卜' 斗C： '芹菜'， '生菜'， '菠菜'， '香蕉'， '胡萝卜' 斗d： '麻雀'， '狗'， '猫'， '狮子'，“大象'，'马' 在这个非常非常小的例子中，B + C会使一个群

0热度

1回答

Pyspark ML KMean是否有办法获得解释的差异？

当我在阅读Pyspark here的ML包时，似乎KMeanModel没有办法计算解释的方差以绘制肘形曲线，从而确定最佳数量的聚类。但是在this示例中，用户似乎具有computeCost()函数。该功能从哪里来？我的程序没有成功。我正在使用Spark 1.6。提前致谢！

2热度

1回答

有没有办法减少小批量kmeans的内存使用量？

我正在处理一个具有500个维度的640万个样本的数据集，并且我试图将它分组为200个集群。我仅限于90GB的内存，当我尝试从sklearn.cluster运行MiniBatchKmeans时，操作系统将杀死用尽太多内存的进程。这是代码： data = np.loadtxt('temp/data.csv', delimiter=',') labels = np.genfromtxt('temp/

0热度

1回答

如何设置Spark Kmeans初始中心

我使用Spark ML来运行Kmeans。我有一堆数据和三个现有的中心，例如三个中心是：[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0]. 那么我怎么能指出Kmeans中心是上述三个向量。我看到Kmean对象有种子参数，但种子参数是一个长类型而不是数组。那么我怎么能告诉Spark Kmeans只使用现有的聚类中心。或者说，我不明白种子在Spark Kmeans

0热度

1回答

如何将数据点集群到预定义区域？

（Matlab问题）我有一组数据点，我想聚集到预定义的点。我的数据点是一个MxN矩阵。每一行M是一条曲线。我想将每条曲线分配给给定的一组曲线PxN。例如。 P = 5,5追求曲线。所以最后它应该将每个MxN曲线分配给PxN中的曲线。最简单的方法是使用kmeans进行0次迭代。使用相关性给了我很差的结果。在Matlab中有一个简单的方法吗？非常感谢您的回答。干杯金宝

-1热度

1回答

传距离矩阵到k-指sklearn

按照作为sklearn kmeans documentation聚类，它说，k-均值需要形状=（N_SAMPLES次，n_features）的基质中。但是我提供了shape =（n_samples，n_samples）的距离矩阵，其中每个索引都保存两个字符串之间的距离。时间序列已使用SAX表示法转换为字符串。当我跑了距离矩阵集群，它提供了良好的效果。这可能是什么原因？据我所知，K-medoids

0热度

1回答

在scikit-learn k-means集群中预测文档时的ValueError

我正在尝试使用scikit-learn在训练好的k-means模型中预测一群测试文档的集群。 vectorizer = TfidfVectorizer(stop_words='english') X = vectorizer.fit_transform(train_documents) k = 10 model = KMeans(n_clusters=k, init='k-means++',