2013-02-18 89 views
4

我有一个关于速度&性能 使用单个机器上的多个虚拟化节点VS单个机器上的单个节点本身。Hadoop虚拟集群vs单机

哪一个会更好的表现?

我之所以问这个问题是因为我正在学习一台机器上的Hadoop,我看到显示在一台机器使用多个虚拟节点的一些网络上的教程。

预先感谢您

+0

请你能添加链接到教程?谢谢 – 2013-02-18 14:27:09

+1

你在这里:http://www.youtube.com/watch?v=CobVqNMiqww – bbnn 2013-02-21 11:09:33

回答

4

总有一些开销自带的虚拟化,所以除非真的有必要我不会建议在虚拟化环境中运行的Hadoop。这就是说,我知道VMWare在使Hadoop在虚拟化环境中工作方面做了大量工作,并且他们已经发布some benchmarks,他们声称在某些条件下使用本机应用程序的虚拟机具有更好的性能。我对vSphere并没有多大用处,但如果您想进一步探索虚拟化,可以考虑一下。但不要拿数字是理所当然的,这真的取决于你正在运行的硬件类型,所以在某些情况下,我认为你可能会获得一些性能与虚拟机,但我的经验猜测,在大多数情况下,你赢了无所不能。

如果你是刚刚开始,并与Hadoop的测试,我认为虚拟化是矫枉过正。你可以很容易在伪分布式模式,这意味着你可以在同一机器上运行多个Hadoop守护进程,每个作为一个单独的进程中运行的Hadoop。这就是我以前开始使用Hadoop的过程,这是一个良好的开端。你可以找到更多信息here(或可能需要取决于哪个版本的Hadoop你正在运行另一页)。

如果你想要用真正的集群测试,但没有资源,我会建议看看亚马逊弹性地图/缩减:它提供了一个按需集群,它很便宜。这样你可以做更高级的测试。更多信息here

底线是,我认为如果目的仅仅是测试,你并不需要虚拟集群。