2017-07-14 89 views
-5

我正在使用先前购买的数据预测客户今日购买概率的零售商店的模型。为了简便起见,说,我们有3个大类产品(A,B,C),我想用在Q1,Q2和Q3 2017年客户的购买历史来预测的概率在2017年第四季度到如何预处理交易数据以预测购买概率?

我应该如何构建我的指标文件?

我尝试:

我想预测的变量是红色的细胞生产集。

enter image description here

请注意以下事项:

  • 由于我的客户群,是这两年一样,我使用的客户如何行事去年预测他们会怎么做照片在今年年底(这是未知的)。
  • 数据由三个月分离,同事sugested这是不正确的,因为我无意中每一个在4赋予更大的权重指标分解,当他们应该只是每个类别之一。

备选:

我sugested另一个形式给出了使用每个类别的两个指标:Ex.'bought_in_category_A”和 'days_since_bought_A'。对我而言,这看起来更简单,但是模型只能预测IF如果客户购买Y,而不是他们购买Y的时间。另外,如果客户从未购买A,会发生什么?我不能使用0,因为这意味着从未买过的顾客离前几天刚刚购买的顾客更近。

问题:

  1. 这是结构确定,还是会构造以另一种方式的数据?
  2. 在这种情况下可以使用去年的信息吗?
  3. 它是确定以“分裂”一个cateogorical变量分成几个二元变量?这是否会影响赋予该变量的重要性?

回答

0

不幸的是,你需要以达到预测分析了不同的方法。

  • 例如,产品的性能在这里未知的(颜色,味道, 大小,季节性,....)
  • 没有关于客户 (年龄,性别信息,生活区等。 ..)
  • 您需要更多的“交易” 信息,(何时,为什么 - 他们如何购买等......)
  • 什么是“生命周期”产品?这是否与时尚有关?
  • 你在哪个分支? (零售,散装,金融,服装...)
  • 同时您做过任何活动吗?这将如何衡量?

我第一会(如果适用的话)上的类别关系和行为的每个季度concetrate: 例如当N1减小然后N2下降 当q1为比Q2或Q1/2016 VS Q2/2017以下。

我想你应该首先与业务分析师一起工作,以找出正确的“规则”和方法。

我不认为你可以用这些通用假定的数据得到具体答案。 通常情况下,您需要至少3-5年的数据来做一些下降预测分析,具体取决于产品的性质。 希望,这有所帮助。

;-)

-mwk

+0

谢谢您的回答,我有所有的信息:产品atributes(颜色,大小等),人口统计信息(年龄,性别,位置),等等。自2013年以来。这是一个过于简单化,使其可以理解。我更关心季节性如何影响我组织信息的方式,但您确实回答了我的问题,指出我可以将这些信息分开。 – syrup