0
我试图使用高维数据集(CDR数据)的K均值。如何在进行K均值聚类后找到每个聚类中最具代表性/区分性的特征?
集群后,我谨代表每个集群与最翔实的特点能展现出独特的/代表客户在该集群的特征。
例如,
群集1:高:call_duration],[低:NUMBER_OF_FRIENDS],[高:call_at_night]
群集2: [低:call_duration],[高:use_promot离子]
集群3:高:internet_usage]
我想知道......
问题1:我如何才能找到那些信息量大的特点哪个可以代表每个集群? 问题2:如果有很多信息性的特征,如何衡量哪一个更具代表性?
另一个问题是“如何衡量值是高还是低?”
我的当前的解决方案在每个聚类中心施加的z归一化每一个特征,那么我假定
- <-2σ或>2σ是离群
- (-2σ到-1σ)或(1σ到2σ)是低/高
- -1σ到1σ是med IUM
问题3:这个衡量标准是否有意义?请给我你的建议。