我正在寻找Hadoop Mapreduce上决策树算法的实现。 是否有任何实施准备好?我看到Mahout只有决策森林,可以使用决策树和决策森林吗?相似性/差异是什么?Hadoop Mapreduce上有决策树算法的实现吗?
0
A
回答
0
决策树可能是分布式最常见的方式是森林。因为通过计算独立树来进行分发并不重要,而不重要的是以分布的方式高效地构建单个树?
0
随机森林当然可以很好地并行化,因为每棵树都是建立在(有希望的)随机独立子集的训练数据上的。
但是,Hadoop已经决定了每个节点上的哪些数据(以及它的数量)。根据源数据,在分发到节点之前先进行随机化可能不切实际。此外,每个节点上的观测数量不再是RF算法的一个参数,它由Hadoop配置控制数据如何分布以及节点上的数据冗余度。如果没有特别的注意,样本偏差会很容易蔓延到每棵树(专家)模型中。因为CART中的二进制递归分区所需的核心计算(例如计算方法(除以计数的总和),误差函数(方差,偏移量等))需要跨多个hadoop节点并行化单个树(CART)基尼等)应该可以写在地图上减少。这并不是微不足道的,因为节点需要非常健谈,才能发挥作用 - 发送索引来分割原始数据样本的子节点,然后递归子节点。我认为这可能适用于真正庞大的数据集,但对于那些已经可以“适合”到单个工作站内存中的数据集来说,速度会更慢。
革命分析最近发布了他们的版本或R已经在Hadoop集群上实施了decsion树。我没有尝试过,但看看它如何在各种大型数据集上执行会很有趣。
这里是链接:Revolution Analytics Brings Big Data Decision Trees and New Hadoop Support to Predictive Analytics
相关问题
- 1. 在Hadoop上并行实现决策树ID3/C4.5
- 2. 递归排序算法的决策树
- 3. PHP决策树实现(ID3或C4.5)
- 4. 增量式决策树C++实现
- 5. 用决策树逻辑实现程序
- 6. Adaboost实现与决策树桩
- 7. 需要帮助实现这个算法与地图Hadoop MapReduce
- 8. 构建一个算法决策树
- 9. 如何计算决策树
- 10. 用foo算法实现hadoop
- 11. Hadoop MapReduce Java实现中的减速器
- 12. 微软商业智能 - 决策树 - “决策树没有发现模型拆分”
- 13. 无法使用Accord.Net框架实现基本决策树
- 14. Apache Hama适合构建决策树吗?
- 15. 树算法实现C#
- 16. 树上的算法。有帮助指出有效解决方法的提示吗?
- 17. J48决策树
- 18. 决策树jQuery
- 19. 的Hadoop MapReduce的实践
- 20. 得到熊猫的实际决策树
- 21. 与java的apache的火花决策树实现问题
- 22. 决策树。噪声策略
- 23. hadoop mapreduce距离计算
- 24. 如何实现基于决策树的C#代码/逻辑?
- 25. Adaboost决策树/树桩
- 26. 在mapreduce中有一个索引器的Java实现吗?
- 27. 决策树问题解决
- 28. 决策树学习算法中的重复训练数据
- 29. 决策树算法名称“c4.5”的含义是什么?
- 30. 如何分割CART决策树算法中的连续属性?