2016-10-12 26 views
0

我试图创建一个数据集相当不同的国家集群(我的国家数据从中位数年龄到可支配收入,包括教育水平)。我应该为多维数据集使用哪种聚类方法?

我该如何解决这个问题?

我读了一些关于聚类的有趣论文,例如使用K-means,但似乎这些算法主要用于有两组变量,而不是像我的情况那样,并且变量可比较时可能试图将数据中的这种多样性的国家聚集在一起)。

我应该规范化一些数据吗?我应该只关注较少的指标以避免这个多维度问题?首先使用谱聚类?

非常感谢支持!

回答

0

创建一个“相似性度量”。可能只是衡量所有测量结果的一个重要因素,但是您可以根据种群大小等进行修正。那么你只能拥有数百个国家,所以大部分暴力方法都可以使用。分层聚类是我的第一个调用点,它会告诉你数据是否固有聚集。

如果所有数据都是定量的,可以在0 - 1(最低的国家是0,最高的是1)进行归一化,然后取特征向量。然后绘制出本征空间中的前两个轴。这将对群集提供另一种视觉修正。

但是,如果没有聚集,最好承认这一点。

+0

感谢您的回复。所有的数据确实是定量的。 – PixAndCo

+0

想要添加详细信息...因此,我应该先将所有内容标准化,然后查找相似性度量标准?我不明白的是我会将30个左右的指标归一化,但在这种情况下如何计算相似性度量?我需要为每个指标计算每个指标的相关指标吗?所以我需要做30 * 29 *次?还是有什么我在这里失踪?对不起,如果这是一个初学者的问题,我已经完成了计量经济学和统计,但不久前:-)我会研究层次聚类,谢谢! – PixAndCo

+0

这些方法是分开的。无论是打造“相似性度量”,这是类似于“给体重2.0〜收入,5.0教育,1.5到中年”等,但也可以做这样的事情“忽略这两个最极端的差异”。所以函数是“相似度(countrya,countryb)”,如果两个国家相同,则返回0.0,如果它们没有任何共同点,则返回高价值。或者使用特征向量(有时称为主要组件)方法。 –

相关问题