应用k-means来检查R中两组间的差异

-4

我有两组。治疗组接触媒体;对照组不是媒体。它们通过数据框中的分类变量进行区分。（暴露于媒体= 1，没有媒体= 0）应用k-means来检查R中两组间的差异

现在，我想检查这两个组之间是否存在明显差异。为此，将具有两个群集的k均值算法应用于四个变量（黑人人口比例，男性人口比例，西班牙裔人口比例，对数尺度中位数收入）。

如何在R中做到这一点？任何人都可以提供一些提示吗？谢谢！这里

km <-kmeans(your data, 2, nstart=10)

您的数据作为data.frame（你的整个数据，或者你可以选择你对他们感兴趣的变量）：

尝试用'?? kmeans' r中 –

试试这个。你需要选择簇的数量（这里是2）。理解数据的一个好方法是应用不同数量的集群，然后查看哪一个更适合您的数据（例如，使用任何标准方法，例如AIC或BIC）。

k-means是一种应用于群集数据的方法。这些数据来自不同的分布，我们想知道每个观察来自哪里（来自哪个分布）。

你也可以看看关于kmeans在R.很多教程例如，

2017-10-15 06:40:36

我应该为这四个变量分配数据框吗？ –

请查看我答案的更新。我不清楚你的意思。但是，如果您的意思是选择4个变量中的2个，然后应用k-means yes，则可以选择变量。如果没有，那么你可以应用你的整个数据的代码。 –

回答