有偏倚的数据的预测模型（分类）

-1

我正在尝试使用例如Logistic回归或决策树（或其他任何其他方法）在R中构建预测模型。除了分类变量（例如存在或不存在疾病）之外，数据集还包括诸如性别，年龄，BMI，吸烟状态等变量。有偏倚的数据的预测模型（分类）

变量性别对我的模型非常重要，我希望它成为预测变量的一部分。然而，在探索性分析过程中，我发现2/3以上的观察结果来自女性受访者，这并不是真正的女性人口比例。

我该怎么做才能考虑到这一点？我的意思是，我不希望模型给女性带来更大的风险（例如），因为比男性受访者获得的观察方式更多。

非常感谢。

来源

2015-11-05 Gerardo Felix

这不是一个特定的编程问题，因此不适合堆栈溢出。如果您需要统计分析的建议，则应改为发布到[stats.se]。 – MrFlick

应该迁移到CV;但是，你可以使用权重 –

这里有一个很好的讨论：https://stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression。这是一个统计问题，而不是一个R问题。简短的答案是它不应该是一个问题。在底部的最终答案中注意，它表示您可以自己平衡样本，然后记住您的模型是假设类同样常见的后验概率估计。你可以在这种情况下做到这一点，这将是一个准确的假设，因为你知道你的人口中男性和女性的真实比例。假设您拥有足够的数据，则可以随机删除一半的女性观察值。你可能只是修补。我经常找到最好的方法来了解某些事情是否有效，就是尝试两种方式，看看它是否有所作为。

来源

2015-11-05 23:40:03

有偏倚的数据的预测模型（分类）

回答

相关问题