我正在尝试使用例如Logistic回归或决策树(或其他任何其他方法)在R中构建预测模型。除了分类变量(例如存在或不存在疾病)之外,数据集还包括诸如性别,年龄,BMI,吸烟状态等变量。有偏倚的数据的预测模型(分类)
变量性别对我的模型非常重要,我希望它成为预测变量的一部分。然而,在探索性分析过程中,我发现2/3以上的观察结果来自女性受访者,这并不是真正的女性人口比例。
我该怎么做才能考虑到这一点?我的意思是,我不希望模型给女性带来更大的风险(例如),因为比男性受访者获得的观察方式更多。
非常感谢。
这不是一个特定的编程问题,因此不适合堆栈溢出。如果您需要统计分析的建议,则应改为发布到[stats.se]。 – MrFlick
应该迁移到CV;但是,你可以使用权重 –