我需要一个分布式文本聚类框架来支持具有完整文档集的算法。像carrot2 http://project.carrot2.org/这样的应用程序在内存计算中使用一组文档,因此耗时且非常高效。如果像lingo,STC,knn等这样的文本聚类算法可以在分布式环境下运行,它们将会更快。 是否有任何框架使用开源工具,如hazelcast http://www.hazelcast.com/,或者是否有任何更快速和更高性能的特定方法?分布式文本聚类框架
0
A
回答
0
Apache Mahout是你在找什么。
0
这样做的工具很少,Mahout就是其中之一。 Mahout支持3种机器学习算法,推荐,聚类和分类。 Mahout在行动 manning的书做了很好的解释。请参阅博客,该博客讨论关于如何使用Mahout and Hadoop distributed file system works?的例子,该例子更侧重于推荐引擎,但它也可以应用于群集,如mahout在行动第7章中所述。作为此的前身,我还写了一个Component architecture这些工具如何适合数据挖掘问题。
Mahout将以独立模式以及Hadoop工作。使用任何一个的决定都归结为需要挖掘的历史数据的大小。如果数据大小的数量级别是千兆字节和千兆字节,则通常使用Mahout和Hadoop。 Weka是另一个类似的开源项目。所有这些都归类为机器学习框架。我希望它有帮助。
相关问题
- 1. 分布式分层聚类
- 2. 分布式缓存框架
- 3. 分布式算法框架
- 4. 分布式本地聚类系数算法(MapReduce/Hadoop)
- 5. Clojure/Java的分布式计算框架
- 6. 分布式映射/减少框架
- 7. 分布式交易聚合
- 8. 文本聚类
- 9. iOS的文本布局框架
- 10. $划分聚合框架问题
- 11. 凤凰框架分布
- 12. Bigquery - 文本聚类
- 13. 文本文件聚类
- 14. 小文本的文本分析和聚类
- 15. 仓库模式聚合和聚合根与实体框架4.0
- 16. 分布式组件和类的版本
- 17. 实体框架 - 验证文本格式
- 18. Web框架的分类?
- 19. 分散式会员框架
- 20. Java文本聚类库
- 21. 聚合框架MongoDB的
- 22. Django的聚合框架
- 23. MongoDB中的聚合框架
- 24. 与聚合框架哈希
- 25. 日期聚合框架
- 26. MongoDB和聚合框架
- 27. 聚类分类和聚类政策
- 28. 聚类或分类?
- 29. 分层凝聚聚类
- 30. 如何在MongoDB聚合框架中进行区分和分组?
感谢您的回答......是的,您是对的,但我想它在Haadoop上运行良好,而且我正在寻找一种更简单的解决方案,它可以在窗口上工作,形成一个集群并以分布式方式工作。 – Jagdeep