2016-09-12 53 views
0

有人可以帮我解决这个问题吗?KMeans聚类为以下混合可变数据

我正在学习KMeans聚类概念。如果变量是连续的,我知道如何聚类。但是这个数据集包含分类/离散变量,如性别和邮政编码。

Sno Age Gender Zip Salary 
1 26 0 9822 100 
2 38 1 9822 700 
3 19 1 9822 100 
4 64 0 9810 2500  
5 53 1 9810 1200 
6 75 1 9810 1800 
7 19 0 9822 75 
8 36 1 9822 350 
9 42 1 9875 1800 
10 41 0 9875 750 

回答

0

K-Means仅适用于数值数据。

K-means对分类数据失败,因为采用分类数据的均值根本没有意义。距离也没有。有些人使用一种热门编码在K-means上运行数据。但是这也不能给出正确的集群。

要解决这类问题,您可以查看K-Means的另一种变体,称为K-Prototype算法,该算法适用于分类和数值数据的混合。

退房https://pypi.python.org/pypi/kmodes/

此链接包含纸浆和Python包使用这种算法。这也很容易理解。