2014-12-23 60 views
0

我刚刚阅读了this关于使用Mahout进行逻辑回归的有趣文章。该教程对我来说很清楚......但真正的用例会如何?例如,当[网络]应用程序首次启动时,需要处理一些培训数据...并将结果保存在OnlineLogisticRegression实例中。然后,为了测试新数据,只需调用OnlineLogisticRegression.classifyFull并查看数据落入给定分类中的0到1 —之间的值表示的概率—。使用Mahout进行Logistic回归

但是如果我想改进一个模型并在[web]应用程序在线时使用附加数据进行训练呢?这个想法应该是每周一次或多次以类似的方式训练模型,以提高准确性。什么是实施这种机制的正确方法?是否有重大的性能问题?

回答

0

不知道你的用例是什么,但我已经实现了如下。 我用了Naivebayes。当前使用我的模型在线。 现在过了15天后,我用新的训练数据添加到以前的训练数据中,并生成一个新的模型。一旦创建新模型,它就会被cron替换为在线模型。