0
我想了解Weka中简单的K-means如何处理名义属性以及为什么它在处理这些属性方面效率不高。Weka简单K意味着处理名义属性
我读到它计算这些属性的模式。我想知道相似度是如何计算的。
让我们举一个例子: 考虑一个包含3个数字和一个nomimal属性的数据集。 标称属性具有3个值:A,B和C.
的Instance1已经值A,实例2具有值B和Instance3具有值A. 在这种情况下,可能的Instance1更类似于Instance3(取决于其他数字属性当然)。 Simple K-means在这种情况下如何工作?
跟进: 如果标称属性具有更多(10)个可能值会怎么样?
k-means恕我直言,恕我直言只对_continuous_属性有意义。其他任何事情都是黑客攻击,并且往往不是结果只有随机凸分区才有效。 – 2015-02-08 20:30:40