-1
我现在能找到的一些推荐引擎是基于csv文件构建和部署内存中的所有内容作为数据集,因此如果每天有大约1 M的数据和大约3700个用户。 我的情况是,我的公司有约1 M活动项目,每天约4000活跃用户(平均),每周约4.5 M页访问(平均)。如何使用Apache Spark构建实时推荐系统?
在内存接缝中建立,训练和推荐物品的想法如此糟糕,所以我正在考虑构建一个引擎引擎,但实时类型!怎么样 ?这就是我正在寻找的,也许训练数据并将其部署到像elasticsearch或类似推荐项目的索引器。
任何分割?
Spark仍然可以处理不适合内存的数据,你见过这篇文章吗?(https://0x0fff.com/spark-memory-management/)? –