2013-04-17 59 views
-1

我想在R语言(编码)中对我的数据(kmeans或hclust)进行聚类。我的数据是有序的,这意味着数据是李克特量表来衡量成本升级的原因(我有41个原因“变量”),从1到5缩放,其中1对5个主要影响没有影响(我有约160观察“谁排名原因”)...如何根据观察结果聚类41任何帮助...我必须在聚类或任何帮助....之前将比例转换为百分比或z分数.... .. 我真的需要你的帮助!!这里是要玩的数据https://docs.google.com/spreadsheet/ccc?key=0AlrR2eXjV8nXdGtLdlYzVk01cE96Rzg2NzRpbEZjUFE&usp=sharing集群序数据

我想根据观察中发生的相似性聚集变量(列)......我遵循statmethods.net/advstats/cluster.html中的代码;但是我无法根据观察中发生的相似性将变量(列)聚类在一起,并且我遵循mattpeeples.net/kmeans.html#help中的工作;但我不知道他为什么会将数据转换为百分比,然后将Z值标准化。

+1

你应该在确定你应该问你的问题之前澄清你的问题。如果这是一个统计问题,你应该去交叉验证;如果它是一个编码问题,你应该在这里问,但是我看不出有关你编码的问题。 – lokheart

回答

3

对于我而言,如果要根据变量中的相似性对行(观察值)进行聚类,或者根据观察中出现的相似性对变量(列)进行聚类,我不清楚吗?

无论如何,看包cluster。这是所有R安装附带的推荐软件包。

阅读?daisy了解有序数据的细节。此度量标准可用于诸如agnes(用于分层聚类)或pam(用于关于中药的分区,更稳健版本的-means)的函数中。

默认情况下,这些将聚集行/观察值。如果要对列(变量)进行聚类,只需使用t()转置数据对象。虽然这可能会混淆数据,取决于您如何存储它们。

+0

感谢您的意见...我想根据观察中发生的相似性将变量(列)聚类...我遵循但我无法根据观察中发生的相似性对变量(列)进行聚类,并且我遵循中的工作,但是我没有知道他为什么将数据转换为百分比,然后将Z值标准化。 – user2288739

0

将数据转换为百分比,称为数据标准化,这样所有的变量都在范围为0 - 1

如果数据不归你大值运行偏差的风险对尺寸