2010-07-19 103 views
1

我在我的应用程序中构建推荐系统,我可能会使用apache mahout,我收集一个大数据集,它将在一段时间内收集......所以哪一个在收集某种日志文件与收集数据库并在需要时收集它之间花费最少推荐系统数据收集方法

回答

1

Mahout的推荐代码可以直接从数据库或文件中读取 - 如果数据格式合理。它不会读取一般日志文件;他们需要翻译成简单的CSV或TSV。但它可以读取任何包含用户/项目/偏好的表格。

如果你已经把你的数据放到数据库表中,我会说放在那里,不要复制它或不必要地导出它。如果可能的话,您可能希望让Mahout将所有这些内容吸收到内存中。

如果你还没有存储这些数据,并且想选择一个简单高效的表示方式,那么我建议你提取用户/项目/偏好信息并将它们存储在简单的CSV文件中,并用gzip压缩。这些可以很容易地与Mahout一起使用,并且比完整的日志文件或数据库更简单和更紧凑。