2017-05-09 44 views
0

我试图使用高维数据集(CDR数据)的K均值。如何在进行K均值聚类后找到每个聚类中最具代表性/区分性的特征?

集群后,我谨代表每个集群最翔实的特点能展现出独特的/代表客户在该集群的特征

例如,

群集1:call_duration],[:NUMBER_OF_FRIENDS],[:call_at_night]

群集2: [:call_duration],[:use_promot离子]

集群3:internet_usage]

我想知道......

问题1:我如何才能找到那些信息量大的特点哪个可以代表每个集群? 问题2:如果有很多信息性的特征,如何衡量哪一个更具代表性?

另一个问题是“如何衡量值是高还是低?”

我的当前的解决方案在每个聚类中心施加的z归一化每一个特征,那么我假定

  • <-2σ或>2σ是离群
  • (-2σ到-1σ)(1σ到2σ)是低/高
  • -1σ到1σ是med IUM

问题3:这个衡量标准是否有意义?请给我你的建议。

回答

0

训练一个决策树区分集群。

或任何其他特征选择方法的分类,因为这是现在的分类问题。