所以我新的R和目前我正在试图找出一组数据的异常值,到目前为止,我已经输入到R,如何从数据集中识别异常中的R
lifespan_yrs<- c(38.6, 4.5, 14, 8, 69, 27, 19, 30.4, 28, 50, 7, 30, 3.5,
40, 3.5, 50, 6, 10.4, 34, 7, 28, 20, 3.9, 39.3, 41, 16.2, 9, 7.6, 46, 22.4,
16.3, 2.6, 24, 100, 13, 10, 3.2, 2, 5, 6.5, 23.6, 12, 20.2, 13, 27, 18, 13.7,
4.7, 9.8, 29, 7, 6, 17, 20, 12.7, 3.5, 4.5, 7.5, 2.3, 24, 3, 13)
gestation_days<- c(645, 42, 60, 25, 624, 180, 35, 392, 63, 230, 112, 281, 35,
365, 42, 28, 42, 120, 75, 122, 400, 148, 16, 252, 310, 63, 28, 68, 336, 100, 33,
21.5, 50, 267, 30, 45, 19, 30, 12, 120, 440, 140, 170, 17, 115, 31, 63, 21, 52,
164, 225, 225, 150, 151, 90, 45, 60, 200, 46, 210, 14, 38)
lifespan_yrs
gestation_days
plot(gestation_days,lifespan_yrs)
而且我有这个数据的一个阴谋,但是问题的下一部分说“调查这个阴谋并且讨论所有值得调查的数据点”我将这意味着数据中是否有任何异常值(我不确定什么定义一个离群值我可以/应该使用),然后有没有办法让R以这种方式调查数据点? 请用简单的语言来解释这个,再说一遍,我是R的新手。
谢谢! Mollie x
如果您要求如何定义异常值,这实际上是一个统计问题,可以在http://stats.stackexchange.com/上更好地提出。如果你有一个你想要使用的定义,并且正在询问如何在代码中实现它,这是正确的网站要求。由于听起来你还不知道如何定义离群值,我建议stats.stackexchange.com。 – josliber
或者,也许没有值得调查的要点。如果这是一项任务,您应该询问您的导师澄清。对于异常值没有普遍的定义。我们不知道作业的意图是什么。 – MrFlick
好的,谢谢@josliber我会这么做的。 –