2017-10-15 96 views
-4

我有两组。治疗组接触媒体;对照组不是媒体。它们通过数据框中的分类变量进行区分。 (暴露于媒体= 1,没有媒体= 0)应用k-means来检查R中两组间的差异

现在,我想检查这两个组之间是否存在明显差异。为此,将具有两个群集的k均值算法应用于四个变量(黑人人口比例,男性人口比例,西班牙裔人口比例,对数尺度中位数收入)。

如何在R中做到这一点?任何人都可以提供一些提示吗?谢谢!这里

km <-kmeans(your data, 2, nstart=10)

您的数据作为data.frame(你的整个数据,或者你可以选择你对他们感兴趣的变量):

+0

尝试用'?? kmeans' r中 –

回答

0

试试这个。你需要选择簇的数量(这里是2)。理解数据的一个好方法是应用不同数量的集群,然后查看哪一个更适合您的数据(例如,使用任何标准方法,例如AIC或BIC)。

k-means是一种应用于群集数据的方法。这些数据来自不同的分布,我们想知道每个观察来自哪里(来自哪个分布)。

你也可以看看关于kmeans在R.很多教程例如,

https://onlinecourses.science.psu.edu/stat857/node/125

https://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

http://www.statmethods.net/advstats/cluster.html

+0

我应该为这四个变量分配数据框吗? –

+0

请查看我答案的更新。我不清楚你的意思。但是,如果您的意思是选择4个变量中的2个,然后应用k-means yes,则可以选择变量。如果没有,那么你可以应用你的整个数据的代码。 –