Weka简单K意味着处理名义属性

我想了解Weka中简单的K-means如何处理名义属性以及为什么它在处理这些属性方面效率不高。Weka简单K意味着处理名义属性

我读到它计算这些属性的模式。我想知道相似度是如何计算的。

让我们举一个例子：考虑一个包含3个数字和一个nomimal属性的数据集。标称属性具有3个值：A，B和C.

的Instance1已经值A，实例2具有值B和Instance3具有值A. 在这种情况下，可能的Instance1更类似于Instance3（取决于其他数字属性当然）。 Simple K-means在这种情况下如何工作？

跟进：如果标称属性具有更多（10）个可能值会怎么样？

2015-02-08 Learner

k-means恕我直言，恕我直言只对_continuous_属性有意义。其他任何事情都是黑客攻击，并且往往不是结果只有随机凸分区才有效。 – 2015-02-08 20:30:40

您可以尝试将其转换为二进制特征，对于每个这样的标称属性，例如has_A, has_B, has_C。然后，如果你缩放它，i1和i3会更接近，因为该属性的平均值将高于0.5（参考你的例子）--i2将更加突出。

如果它更多，那么您只需为每个可能的值添加更多的二进制功能。基本上你只是枢轴每个名义属性。

2015-02-18 08:58:02 Tjorriemorrie

回答