2014-02-28 129 views
0

我想从时间序列创建一个预测模型。我有一个数据框,其中包括2列(日期和案例)。日期列从2008-01-01到2013-12-01。每个月都有一些数字(但是,72个观测值中的30个以上的值为NA)。因此,我想创建一个预测模型来预测2013-12-01之后的3-4个月内的病例吗?谁能帮我?从时间序列进行预测?

这里是dput(my data)

structure(list(Date2 = structure(c(13879, 13910, 13939, 13970, 
14000, 14031, 14061, 14092, 14123, 14153, 14184, 14214, 14245, 
14276, 14304, 14335, 14365, 14396, 14426, 14457, 14488, 14518, 
14549, 14579, 14610, 14641, 14669, 14700, 14730, 14761, 14791, 
14822, 14853, 14883, 14914, 14944, 14975, 15006, 15034, 15065, 
15095, 15126, 15156, 15187, 15218, 15248, 15279, 15309, 15340, 
15371, 15400, 15431, 15461, 15492, 15522, 15553, 15584, 15614, 
15645, 15675, 15706, 15737, 15765, 15796, 15826, 15857, 15887, 
15918, 15949, 15979, 16010, 16040), class = "Date"), Cases = c(16352L, 
NA, NA, NA, NA, NA, NA, NA, NA, NA, 10L, NA, 23L, 138L, NA, 18L, 
NA, 3534L, 43L, NA, 3L, 118L, NA, 172L, 4194L, NA, 9L, 2L, 162L, 
NA, 112L, 115L, NA, NA, 119L, NA, NA, 172L, NA, 25L, NA, NA, 
11L, 4L, 457L, 56L, NA, 148L, 446L, 30L, NA, NA, NA, NA, NA, 
NA, NA, 583L, NA, 180L, 193L, NA, 77L, NA, 18L, 15L, NA, NA, 
1L, NA, NA, NA)), .Names = c("Date2", "Cases"), row.names = c(NA, 
-72L), class = "data.frame") 

预先感谢您为您的贡献输出。

+0

这有点难以作出预测时,在历史的一半的数据不可用。 –

+0

我想是的。但是,如果数据集没有NA值,我将如何创建预测模型?因为,我将把这个预测模型应用到具有相同列的另一个数据框(案例和日期,但有几个NA)。 – Ram

+0

查看软件包'forecast'和'astsa'。我会看看我能否创建一个通用答案。 –

回答

0

也许这可以让你开始,但做出预测是困难的,需要很好地理解你的数据。这里提供的信息不足以做出良好的IMO预测。这是一种广义线性模型,自第一次观察和一年中的月份起,随着天数的变化,由于只是眼睛看起来像计数的数据可能与月份有关,并且随着年份的增加而下降。

library(ggplot2) 
dat <- dats[complete.cases(dats),] 
dat$days <- dat$Date2 - dat$Date2[1] 
mod2 <- glm(Cases ~ days + format(Date2, "%m"), data = dat, family = poisson()) 
dat$predicted <- "observed" 

## See how the model performed against old data 
dat <- rbind(dat, data.frame(
    Date2 = dat$Date2, 
    Cases = predict(mod2, type = "response"), 
    predicted = "predicted", 
    days = dat$days)) 

## predict future cases 
futureDates <- seq(as.Date("2014/1/1"), by = "month", length.out = 12) 
future <- data.frame(
    Date2 = futureDates, 
    days = futureDates - dat$Date2[1]) 

datFuture <- rbind(dat, data.frame(Date2 = future$Date2, 
          days = future$days, 
          Cases = predict(mod2, type = "response", newdata = future), 
          predicted = "predicted")) 

ggplot(datFuture, aes(Date2, Cases, col = factor(predicted), group = predicted)) + 
    geom_point(pch = 3) + ylab("Predicted Cases") + xlab("Date") + 
    geom_line(lty = 2, lwd = 1.5, alpha = 0.2) + 
    geom_smooth(alpha = 0.1, fill = NA) 

Results look like this

+0

那真棒。非常感谢。我想问你一些关于图的问题(问题可能很简单,但我需要理解。) 1)图中有两条虚线,这些线的确切含义是什么? 2)另外,观察和预测线的含义是什么?和/或这两条线有什么区别?我应该如何解释这些? 3)在我的图中,我看到y行中的数字,如1e + 05,3e-05。我怎样才能将它们转换为正常的数字,就像你的图表一样。非常感谢。 – Ram

+0

@Ram虚线仅连接观察点和预测点,它们没有统计意义,实线是黄土曲线(来自'geom_smooth()'的默认拟合)。这些数字是科学记数法,只需更改[scaling](http://stackoverflow.com/questions/14563989/force-r-to-stop-plotting-abbreviated-axis-labels-e-g-1e00-in-ggplot2)。所有这些行都只是探索性的,可以查看glm模型进行统计分析或询问[here](http://stats.stackexchange.com/)。 – jenesaisquoi

+0

只是最后一个问题。当我看到实线开始时,观察到约14.000,预测约9000?这种差异来自哪里?我这样问,因为我认为观察到的数据应该与实际数据相同。例如,让我们看看第一个月(2008-01-01)本月的案例数是16352,这是虚线的起点。在这一点上观察到的数据约为14.000。我想这两点应该是一样的。你能告诉我他们为什么不同吗? – Ram

相关问题