我的任务是开发一个回归模型,查看不同课程中的学生入学情况。这是一个非常好的干净的数据集,注册人数很好地遵循泊松分布。我在R中拟合了一个模型(同时使用GLM和零膨胀泊松)。由此产生的残差似乎是合理的。R中的费率变量的回归
然而,当时我被指示将学生人数改为以学生/学校人口计算的“费率”(每所学校都有自己的人口)。这现在不再是一个计数变量,而是一个比例介于0和1之间。这被认为是计划中的“招生比例”。
这个“比率”(学生/人口)不再是泊松,但肯定也不正常。所以,我对于适当的分配和随后的模型来表示它有点失落。
对数正态分布似乎很适合这个速率参数,但我有很多0值,所以它实际上不适合。
对于这个新参数的最佳分配形式以及如何在R中对其进行建模的任何建议?
谢谢!
我认为这是一个使用暴露/偏移变量(http://en.wikipedia.org/wiki/Poisson_regression#.22Exposure.22_and_offset)的例子。并且,也许,请http://stats.stackexchange.com/ – Rcoster
交叉发布到r-help:http://thread.gmane.org/gmane.comp.lang.r.general/291112 –