2016-06-28 44 views
-1

我现在能找到的一些推荐引擎是基于csv文件构建和部署内存中的所有内容作为数据集,因此如果每天有大约1 M的数据和大约3700个用户。 我的情况是,我的公司有约1 M活动项目,每天约4000活跃用户(平均),每周约4.5 M页访问(平均)。如何使用Apache Spark构建实时推荐系统?

在内存接缝中建立,训练和推荐物品的想法如此糟糕,所以我正在考虑构建一个引擎引擎,但实时类型!怎么样 ?这就是我正在寻找的,也许训练数据并将其部署到像elasticsearch或类似推荐项目的索引器。

任何分割?

+0

Spark仍然可以处理不适合内存的数据,你见过这篇文章吗?(https://0x0fff.com/spark-memory-management/)? –

回答

1

我会考虑做几件事情。

  • 使用机器学习从项目中提取的特征,这将有可能再次被重新培训的再次
  • 分析这些项目的使用行为,包括点击流
  • 使用AB测试来验证算法
  • 使用星火Stream