0
我试图创建一个数据集相当不同的国家集群(我的国家数据从中位数年龄到可支配收入,包括教育水平)。我应该为多维数据集使用哪种聚类方法?
我该如何解决这个问题?
我读了一些关于聚类的有趣论文,例如使用K-means,但似乎这些算法主要用于有两组变量,而不是像我的情况那样,并且变量可比较时可能试图将数据中的这种多样性的国家聚集在一起)。
我应该规范化一些数据吗?我应该只关注较少的指标以避免这个多维度问题?首先使用谱聚类?
非常感谢支持!
感谢您的回复。所有的数据确实是定量的。 – PixAndCo
想要添加详细信息...因此,我应该先将所有内容标准化,然后查找相似性度量标准?我不明白的是我会将30个左右的指标归一化,但在这种情况下如何计算相似性度量?我需要为每个指标计算每个指标的相关指标吗?所以我需要做30 * 29 *次?还是有什么我在这里失踪?对不起,如果这是一个初学者的问题,我已经完成了计量经济学和统计,但不久前:-)我会研究层次聚类,谢谢! – PixAndCo
这些方法是分开的。无论是打造“相似性度量”,这是类似于“给体重2.0〜收入,5.0教育,1.5到中年”等,但也可以做这样的事情“忽略这两个最极端的差异”。所以函数是“相似度(countrya,countryb)”,如果两个国家相同,则返回0.0,如果它们没有任何共同点,则返回高价值。或者使用特征向量(有时称为主要组件)方法。 –