我目前正在试验涉及分类模型监督训练的ML任务。到目前为止,我已经有了〜5M的训练实例和〜5M的交叉验证实例。目前,每个例子都有46个特征,但是我可能想在不久的将来再生成10个特征,所以任何解决方案都应该留出一些改进空间。机器学习任务:使用什么工具?
我的问题是以下几点:我用什么工具来解决这个问题?我想使用随机森林或SVM,但是我担心后者在我的情况下可能会太慢。我已经考虑过Mahout,但是因为它似乎需要一定量的配置以及与命令行脚本混杂在一起而转身离开。我宁愿直接针对一些(有据可查的!)库进行编码,或者用GUI来定义我的模型。
我还应该指出我正在寻找能够在Windows上运行的东西(没有诸如cygwin之类的东西),并且那些能够很好地与.NET搭配的解决方案非常值得赞赏。
你可以想象,到时候,来了,该代码将在Cluster Compute Eight Extra Large Instance上Amazon EC2运行,所以任何使用了大量的内存和多核CPU的欢迎。
最后但并非最不重要的,我要指定我的数据集就是密集的(在没有缺失值/所有列的值对每个向量)
有许多工具可供使用(首先,请参阅KDnuggets上的软件列表:http://www.kdnuggets.com/software/index.html)。虽然你的问题描述消除了其中的一些,但仍有一些数字可以满足。我不确定你的意思是“与.NET一起玩好”,但是任何有价值的工具都应该提供模型的报告或源代码,这些代码可以很容易地转换为.NET代码。 – Predictor 2011-12-24 12:16:12
感谢您的链接,一旦我写了这个,将尽快检查出来。至于与.NET的良好配合,这意味着某些具有可编程接口来启动这项工作,或者甚至是一个.NET库(或可用的包装器)的东西比其他东西更好。 – em70 2011-12-24 12:31:03