Q

如何处理K平均值算法中每个坐标值的不同标度值？

2017-06-17 20 views -1 likes

-1

我正在练习使用python的K-means。我正在处理一组购物数据，并且输入数据集看起来像这样。如何处理K平均值算法中每个坐标值的不同标度值？

输入表头：

[用户ID]
[money_spent_on_clothes]诠释
[money_spent_on_food] INT
[money_spent_on_shoes] INT
[money_spent_on_Monday] INT
[money_spent_on_Tuesday ] int
[money_spent_on_We dnesday] INT
[money_spent_on_Thursday] INT
[money_spent_on_Friday]诠释
[shopping_hours_am] INT
[shopping_hours_pm] INT

我想使用他们花多少钱在每个类别中，有什么当他们购物最多时，他们在购物时花费多少时间在购物时考虑到群集用户。

数据集中几乎没有差异。

单位不匹配：$主场迎战小时
特征类型混合。前三个功能是关于类别，接下来的5个功能是关于一周中的哪一天，最后两个功能是他们在一天中的花费时间（上午和下午）。

我想知道如果K-均值聚类可以对这个数据集进行&功能我已经指出，如果是可以做到的，什么样的正常化必须以这个工作应用？

在此先感谢！

2017-06-17 2D_

+0

正常情况下，缩放是在每列的基础上完成的，所以没有什么可担心的。或者你有其他想法。你是否从scikit-learn中尝试过StandardScaler？ –

+0

谢谢。我会尝试Standardscaler。我很高兴知道，只要按比例缩放，具有上述不同类型的功能就没有问题。 –

A

回答

1

您可以使用Mahalanobis Distance，并且由于它的属性，可以很容易地使用任何欧几里德驱动的K-Means算法（将其用作黑盒子）。

2017-07-22 10:26:07 Royi

+0

谢谢！我会仔细看看的：） –

相关问题