2015-11-05 19 views
-1

我正在尝试使用例如Logistic回归或决策树(或其他任何其他方法)在R中构建预测模型。除了分类变量(例如存在或不存在疾病)之外,数据集还包括诸如性别,年龄,BMI,吸烟状态等变量。有偏倚的数据的预测模型(分类)

变量性别对我的模型非常重要,我希望它成为预测变量的一部分。然而,在探索性分析过程中,我发现2/3以上的观察结果来自女性受访者,这并不是真正的女性人口比例。

我该怎么做才能考虑到这一点?我的意思是,我不希望模型给女性带来更大的风险(例如),因为比男性受访者获得的观察方式更多。

非常感谢。

+0

这不是一个特定的编程问题,因此不适合堆栈溢出。如果您需要统计分析的建议,则应改为发布到[stats.se]。 – MrFlick

+0

应该迁移到CV;但是,你可以使用权重 –

回答

0

这里有一个很好的讨论:https://stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression。这是一个统计问题,而不是一个R问题。简短的答案是它不应该是一个问题。在底部的最终答案中注意,它表示您可以自己平衡样本,然后记住您的模型是假设类同样常见的后验概率估计。你可以在这种情况下做到这一点,这将是一个准确的假设,因为你知道你的人口中男性和女性的真实比例。假设您拥有足够的数据,则可以随机删除一半的女性观察值。你可能只是修补。我经常找到最好的方法来了解某些事情是否有效,就是尝试两种方式,看看它是否有所作为。