2013-02-25 72 views
1

用于群集分类数据的机器学习算法最合适的家族是什么?假设我们有以下数据集:如何聚类分类变量?

V1  V2  V3  V4 
"v1a"  "v2b"  "v3b"  "v4c" 
"v1b"  "v2f"  "v3a"  "v4c" 
"v1a"  "v2e"  "v3b"  "v4c" 

有什么方法可以以某种方式对它们进行聚类吗?我特别感兴趣的是通过Apache Mahout来做到这一点。任何暗示\想法是高度赞赏。

回答

0

,你需要回答第一的问题是:

什么是集群?

显然,许多现有的集群定义(通过欧几里得距离小于epsilon的步骤连接)等将不会有用。

有一些技巧可以将这些数据进行向量化,以便您仍然可以在其上运行k-means。

但更多的,往往不是其结果将是无用,因为人们并不认为他们在做什么第一

因此,首先尝试找出你想要做的事情,然后寻找工具来做到这一点。

+0

非常感谢您的回答。我可以请你给我多一点提示吗?哪一种算法可以很好地解决这个问题?只需猜测! :D那些基于贝叶斯定理的那些呢? – user706838 2013-02-28 11:40:44

+0

贝叶斯定理对你的数据有什么意义? 我不知道你的数据,我不能告诉你什么对你有意义。 – 2013-02-28 11:50:32