我正在使用先前购买的数据预测客户今日购买概率的零售商店的模型。为了简便起见,说,我们有3个大类产品(A,B,C),我想用在Q1,Q2和Q3 2017年客户的购买历史来预测的概率在2017年第四季度到如何预处理交易数据以预测购买概率?
买我应该如何构建我的指标文件?
我尝试:
我想预测的变量是红色的细胞生产集。
请注意以下事项:
- 由于我的客户群,是这两年一样,我使用的客户如何行事去年预测他们会怎么做照片在今年年底(这是未知的)。
- 数据由三个月分离,同事sugested这是不正确的,因为我无意中每一个在4赋予更大的权重指标分解,当他们应该只是每个类别之一。
备选:
我sugested另一个形式给出了使用每个类别的两个指标:Ex.'bought_in_category_A”和 'days_since_bought_A'。对我而言,这看起来更简单,但是模型只能预测IF如果客户购买Y,而不是他们购买Y的时间。另外,如果客户从未购买A,会发生什么?我不能使用0,因为这意味着从未买过的顾客离前几天刚刚购买的顾客更近。
问题:
- 这是结构确定,还是会构造以另一种方式的数据?
- 在这种情况下可以使用去年的信息吗?
- 它是确定以“分裂”一个cateogorical变量分成几个二元变量?这是否会影响赋予该变量的重要性?
谢谢您的回答,我有所有的信息:产品atributes(颜色,大小等),人口统计信息(年龄,性别,位置),等等。自2013年以来。这是一个过于简单化,使其可以理解。我更关心季节性如何影响我组织信息的方式,但您确实回答了我的问题,指出我可以将这些信息分开。 – syrup