我正在尝试构建电子商务模型,以预测通过在线营销渠道(如谷歌购物)获得的单击点击收入。点击次数是针对产品详细信息页面的,因此我的培训数据包含产品详细信息,例如:价格,交货时间,类别,制造商。每一次历史点击也带来了收入。问题是,对于95%以上的点击量,收入等于零。单击收入预测模型
历史数据是这样的:
click_id | manufacturer | category | delivery_time | price | revenue
1 |man1 | cat1 | 24 | 100 | 0
2 |man1 | cat1 | 24 | 100 | 0
3 |man1 | cat1 | 24 | 100 | 0
4 |man1 | cat1 | 24 | 100 | 120
5 |man2 | cat2 | 48 | 200 | 0
正如你所看到的,这是可能的(普通)塔两个数据点具有完全相同的特征和目标变量(收入)的非常不同的值。例如前4个数据点具有相同的特征,并且仅有4个数据点具有收入。理想情况下,我的模型将在具有相同特征的测试示例中预测这4次点击的平均收入(即30)。
我的问题是关于我尝试应用模型之前的数据表示。我相信我有两个选择:
- 将回归直接应用于点击数据(如上例),并希望回归能够做正确的事情。在这种情况下,回归误差最终会非常大,因此很难说出模型的实际效果。
- 尝试将多个数据点(点击)分组到单个点以避免一些零 - 将具有相同功能的所有数据点进行分组,并将目标(收入)变量计算为SUM(收入)/ COUNT(点击次数)。通过这种方法,我的收入仍然有很多零(产品只有几个点击),有时候会有数千次点击只给您一个数据点 - 这看起来不正确。
任何意见如何解决这个问题是非常受欢迎的。
嗨flymeatball,感谢您的答案。 我的问题是更多的回归分类(所以我没有类型1和2的错误和类似)。我已经更新了这篇文章,详细介绍了我除了模型之外的内容(在历史数据表下面)。 – hakaa
@hakaa编辑根据您的评论 – flyingmeatball
我试过回归,它的工作出人意料地好 - 它给予的结果比刚好来自拦截的平均值要好得多。但你是对的,拦截是模型的主要驱动力。 我也尝试过多项式回归方面的“交互项”,并没有多大帮助。 – hakaa