-1

我正在练习使用python的K-means。 我正在处理一组购物数据,并且输入数据集看起来像这样。如何处理K平均值算法中每个坐标值的不同标度值?

输入表头:

  • [用户ID]
  • [money_spent_on_clothes]诠释
  • [money_spent_on_food] INT
  • [money_spent_on_shoes] INT
  • [money_spent_on_Monday] INT
  • [money_spent_on_Tuesday ] int
  • [money_spent_on_We dnesday] INT
  • [money_spent_on_Thursday] INT
  • [money_spent_on_Friday]诠释
  • [shopping_hours_am] INT
  • [shopping_hours_pm] INT

我想使用他们花多少钱在每个类别中,有什么当他们购物最多时,他们在购物时花费多少时间在购物时考虑到群集用户。

数据集中几乎没有差异。

  • 单位不匹配:$主场迎战小时
  • 特征类型混合。前三个功能是关于类别,接下来的5个功能是关于一周中的哪一天,最后两个功能是他们在一天中的花费时间(上午和下午)。

我想知道如果K-均值聚类可以对这个数据集进行&功能我已经指出,如果是可以做到的,什么样的正常化必须以这个工作应用?

在此先感谢!

+0

正常情况下,缩放是在每列的基础上完成的,所以没有什么可担心的。或者你有其他想法。你是否从scikit-learn中尝试过StandardScaler? –

+0

谢谢。我会尝试Standardscaler。我很高兴知道,只要按比例缩放,具有上述不同类型的功能就没有问题。 –

回答

1

您可以使用Mahalanobis Distance,并且由于它的属性,可以很容易地使用任何欧几里德驱动的K-Means算法(将其用作黑盒子)。

+0

谢谢!我会仔细看看的 :) –