“批量处理”我的意思是一个静态数据集事实(如在一个CSV)一次处理,以提取知识。 “在线”时,它使用一个直播支持存储:在事件发生时添加(“X购买Y”),并在此实时数据上发生查询(“您将推荐给正在查看y的人?“)。在线(而不是批量处理)数据挖掘软件包
我有(错)实时使用的术语,但我不意味着结果必须在一个固定的时间内。 ('''编辑:实时替换在线以上''')
我记住了一个使用实时数据的推荐引擎。然而,我遇到的所有在线资源(如SO问题)都使在实时和批量处理数据挖掘包之间没有区别。我只好逐个搜索:
- Carrot2从Lucene的/ Solr的以及其他现场数据集(联机)
- Knime其不计划对静态文件执行(散装)
- 亨利马乌它运行在Hadoop读取(和预凝胶型Giraph未来)(在线?)
- 的商业包装与卡桑德拉(在线整合?)
什么是在线数据挖掘软件包?
有没有理由为什么文献没有区分在线和批量处理软件包?或者是所有的实际数据挖掘实际上是批量操作?
我编辑了你的文章,因为适当的术语恕我直言,是“在线操作”(而不是工作在数据的副本上)。 – 2012-03-11 11:09:09