我想建立一个推荐系统,根据他的行为(谷歌搜索,点击,他也可以显式评价网页)向用户推荐网页。为了了解Google新闻的方式,它会显示来自网络的关于特定主题的新闻文章。用技术术语来说就是聚类,但我的目标是相似的。它将基于用户的行为进行基于内容的推荐。网页推荐系统
所以我的问题是:
- 我怎么可能拖网在网上找到相关网页页面?
- 我应该使用什么算法来从网页中提取数据是文本分析和文字频率的唯一方法呢?
- 最后哪个平台最适合这个问题。我听说过Apache mahout,它有一些可重复使用的algos,这听起来很合适吗?
你可以写关于你的问题多本书籍。 –
哈哈,他们听起来像是个大问题吗?那么我正在寻找一个简单的解决方案。只是简单描述如何处理这样一个项目。 –
[编程集体智慧](http://shop.oreilly.com/product/9780596529321.do)是一个简单的,无数学的机器学习入门,它包含一个与您的问题类似的用例。 – Maurits