2013-03-12 51 views
0

这些天我正在使用一些聚类算法,我只是想问一个与这个领域有关的问题。也许那些在这个领域工作的人已经有了这个答案。数据聚类 - 数据预处理

在聚类过程中,我需要一些训练数据,我将要聚类。迭代次数(e.K-Means算法)取决于训练数据的数量(向量数量)。有什么方法可以从训练数据中找到最重要的数据。我的意思是:不用所有数据训练K-Means,也许有一种方法可以找到重要的载体(那些影响大多数聚类的载体),并使用这些“重要”载体(从训练数据)到训练该算法。

我希望你能理解我。 感谢您阅读并尝试回答。

回答

2

“培训”和“测试”数据是一个来自分类的概念,而不是聚类分析。

K-means是一种统计方法。如果你想加快速度,在一个足够大的随机样本上运行它应该会给你几乎相同的结果。

+0

@ Anony-Mousse.Actually我想加快SOM。我正在考虑对数据进行预处理,例如。从数据集中找到最重要的矢量,并在第一次迭代中用这些矢量训练SOM。也许这会影响更好地图的构建,也会影响算法本身的快速收敛。因为我们知道一些数据会影响节点,并且其中一些数据会对更新节点权重产生负面影响。也许它应该是一种以积极的方式更多地影响可能影响节点权重的向量的方法。 – Drill 2013-03-13 21:19:26

+0

好吧,在k-意味着它是异常值,更多地影响结果,但不是更好......我对SOM不太了解。无论哪种方式,您是否曾尝试通过先处理样本来加快速度,然后才完善整个数据集? – 2013-03-14 08:57:49

+0

@ Anony-Mousse.I很抱歉,但我无法理解“完善整个数据集”......先处理一个样本,然后我应该如何处理来自数据集的其余数据? Thnx帮助很多 – Drill 2013-03-14 10:06:34