对于使用R/Python的1-2%的样本数据,我有一个适合的机器学习分类器,我对精度测量(精度,召回率和F_score)非常满意。对一个非常大的数据集进行评分
现在我想得分了巨大的数据库,70万行/与这个分类这是在R.编码
信息有关数据集驻留在Hadoop的/蜂房环境实例:
70万元X 40个变量(列):大约18个变量是分类的,其余22个是数字(包括整数)
我该如何去做呢?有什么建议么 ?
我曾想过做的事情是:
一)组块了在1M增量数据从CSV文件中Hadoop的系统和喂养它与R
二)某种类型批 - 处理。
它不是一个实时系统,所以不需要每天都进行,但我仍然想在2-3小时内对它进行评分。
分类器使用样本数据集构建 - 即只有约1%的数据。但我会研究RHadoop。 –