2013-01-11 44 views
0

我是新来的统计,R和一般的编程,在深入抛出之前只有很短的一段时间。然而,我渴望为自己解决问题。变量a存在变量b的日期线图?

我的第一个任务是检查我已经给出的异常数据。我已收到一份电子表格,其中列Date,PersonIDPlaceID。我假设如果我将PersonID的每个因子与Date作图,则直线会显示没有异常,因为PersonID应该只能同时存在于一个地方。但是,我担心如果在一个Date上有两个相同的PersonID,我的情节无法显示这一点。

我用简单的代码:

require(ggplot2) 
qplot(Date,PersonID) 

我的问题是,我不确定如何将Date因素纳入这个问题。本质上,我试图检查没有PersonID出现在同一Date多个PlaceID,并已尝试了2天,无法弄清楚如何将这3个变量放在同一个图上。

我不是要求某人为我写代码。我只是想知道我是否在正确的思路上,如果是的话,我应该怎样考虑让R来绘制这个思路。有谁能够帮助我?道歉,如果这个问题是相当长的啰嗦,或张贴在错误的地方。

+0

为什么你想用一个阴谋做到这一点? –

+0

我的主管建议,但已经离开了,所以我一直无法与他取得联系,并希望我的项目的这个阶段能够在下周回归。你会建议一种不同的方法吗? – 2013-01-11 13:04:37

+0

我还会补充说在这个特定数据集中有近100000行。 – 2013-01-11 13:12:52

回答

1

如果您只想知道这是否发生在数据集中,请尝试duplicated()。例如,假设您的数据帧被称为df

sum(duplicated(df[,c("Date","PersonID")])) 

将返回基于列Date和数据帧PersonID的大量重复。如果它大于零,则数据中有重复。

相关问题