我正在研究一种算法,它可以猜测K值是否为kmeans聚类。我想我正在寻找可用作比较的数据集,或者可能是几个数据集,其中簇的数量是“已知的”,所以我可以看到我的算法在猜测时如何进行K.聚类基线比较,KMeans
回答
我会首先检查数据集的UCI存储库: http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table
我相信那里有一些标签。
但是也有一些经常在报纸作为基线,如20newsgroups使用文本聚类数据集: http://qwone.com/~jason/20Newsgroups/
另一位伟大的方法(一说我的论文的椅子一贯主张)是构建你自己的小示例数据集。最好的办法是从小处着手,尝试一些只有两个或三个变量的图形化表示,然后自己标记这些簇。
一个小的自制数据集的附加好处是,你知道答案,它是非常适合调试。
既然你是专注于k
-意味着,你有没有考虑使用各种措施(Silhouette,Davies-Bouldin等)来找到最佳k
?
实际上,“最优”k可能不是一个好的选择。大多数情况下,人们希望选择更大的k,然后更详细地分析生成的集群/原型,以便从多个k均值分区中构建集群。
我正在研究确定k的低成本手段。我们必须能够处理TB数据,因此它必须快速且可并行化。这些方法看起来像牺牲了性能,有利于提高准确性。 – user1865047
您仍然可以使用它们来验证启发式是否执行正常。另外,实际上,结核病的k-means并没有多大意义。以1%的样本(或更少)运行它,你将得到基本相同的结果。这是统计数据。除非您有偏见,否则更多数据只会更改最后几位数字。如果你的代码不好,你甚至可能会遇到整个数据集的数值问题...... –
iris flower dataset是一个很好的开始,该聚类很好地工作。
下载here
- 1. Matlab kmeans聚类非线性可分数据
- 2. 聚类标签和聚类中心(R中的kmeans)
- 3. 计算Kmeans聚类的误差
- 4. 使用mahout进行Kmeans聚类
- 5. Kmeans聚类识别R中的知识
- 6. Kmeans聚类和文本挖掘在R
- 7. KMEANS文本数据进行聚类
- 8. kmeans聚类与数据框(scipy)
- 9. 将kmeans聚类结果导出到.csv
- 10. 使用scipy kmeans进行聚类分析
- 11. Kmeans聚类如何在tensorflow中工作?
- 12. opencv kmeans聚类的输入矩阵
- 13. R绘制kmeans与热图聚类
- 14. 平分文档聚类的KMeans
- 15. 在Carrot2中比较聚类结果
- 16. VS2010 Profiler比较报告基线/比较值
- 17. 如何比较氧基类参考类?
- 18. Python的基本类型比较V/S对象比较
- 19. 如何使用kmeans聚类解释更高百分比的点变异?
- 20. 根据聚类中心更改R中kmeans产生的聚类数
- 21. 在反射中比较基本类型
- 22. WEKA类映射和减少KMeans阶段在hadoop上聚类
- 23. 基本SQL比较
- 24. 比较类型
- 25. Java - 比较类?
- 26. STAssertEqualObjects比较类
- 27. opencv kmeans聚簇多个垫子
- 28. 如何解决这与kmeans聚类和使用余弦similiraty
- 29. 聚类算法的功能缩放(规范化)(如Kmeans&EM)
- 30. 如何绘制kmeans聚类在python 4维数据?
但自制的,合成数据集不考虑认真对待有关精度/收敛问题 – rano
伟大的信息,谢谢! – user1865047
真的,rano,但是如果你试图找到K的最佳值,那么你真的需要在个案的基础上做到这一点。 – user2077035