2013-11-26 13 views
0

我正要做1000维特征向量的聚类。 即特征向量如下所示。 a = {255,2334,436,...,5284}; b = {235,434,63,...,844}; ... 我也有测量2个特征向量之间距离的度量。 但我不能找出哪个聚类算法聚类与此特征向量最好,因为我无法想象这些向量由于高维分布。 任何人都知道可以将这些分布, 或不知道数据分布的条件可视化的方法,如何选择最佳聚类算法? 在此先感谢。如何选择合适的聚类算法

+0

你有什么样的数据?标记的,未标记的?你对班级数量有什么了解吗? – PureW

+0

为此,我收集了实验数据,所以我知道实验数据中的类和标签的数量。然后,我将各种聚类算法应用于数据并评估性能,以便我可以得到最好的方法。但是这个实验数据还不够,也不是一般的,所以实验步骤选择的方法在一般大数据的实际情况下可能会失败,所以我想知道如何得到最适合一般数据的算法,谢谢为你的关怀 – user2668204

+0

如果你已经标记了数据,为什么不只是比较几种不同的聚类算法,并比较哪一个是最正确的呢? – PureW

回答

1

您应该将标记的数据分成训练集和测试集。使用训练集您可以训练一个分类器,您可以使用您的标记测试集来测量性能。

作为分类器,first try可以是SVC。

为了获得更好的可靠性,您应该针对不同的训练和测试集重做此过程。这被称为cross-validation

+0

+1链接到scikit-learn流程图。我甚至不知道我在找那个东西。 – mtrw

+0

我知道这件事。但是如果有任何算法超越我在交叉验证实验中获得的最佳算法呢?它可能是因为我无法在交叉验证中测试所有算法。所以我想要可视化分布或者如何从标记数据和距离度量标准中找到合适的算法,以确保得到的结果是合理的。 – user2668204