2011-01-27 165 views
23

Java based Mahout's目标是构建可伸缩的机器学习库。 Python中是否有任何等效的库?Python中的Mahout相当于

+1

您可以使用Jython或JPype将Mahout与您的Python代码进行整合。看到我的simular问题: http://stackoverflow.com/questions/7491953/is-there-any-python-libraries-for-mahout – 2011-10-14 13:39:52

+0

Python不被认为是大型数据集计算的好选择,因为性能变得非常慢。 – Swapnil 2012-12-28 15:15:58

回答

19

scikits学习的是强烈建议http://scikit-learn.sourceforge.net/

+4

请注意:目前scikit-learn的实现尚未能够利用Hadoop集群来执行分布式计算。然而,解决中型问题(例如线性模型的数十万个样本和特征)是相当具有可扩展性的,如果您使用稀疏表示和/或memmap'ed数组。 – ogrisel 2011-05-31 12:03:49

1

Orange据说是相当不错的,从我听说过,但我从来没有使用过个人。 PyML也值得一看。另外,Monte

1

pysuggestSUGGEST的Python包装器,它是一种Top-N推荐引擎,实现了多种用于协作过滤的推荐算法。

0

一个有趣的图书馆是crab

从本文开始,该库只有稳定的协作过滤算法实现:基于用户和基于项目。

包含一个SVD实现,但它是实验性的,基于内容的算法在路线图上。

请检查一下!

1

MLlib被推荐。它是一个可扩展的机器学习库,可以读取hdfs的数据。