我有4核心桌面,并希望使用我所有的核心与hadoop进行本地数据处理。 (即有时我有足够的能力在本地处理数据,有时我会将相同的作业提交给群集)。如何在单个JVM中运行hadoop多线程方式?
默认情况下,hadoop本地模式只运行一个映射器和一个reducer,因此我的本地作业非常慢。 由于“痛苦”的配置,我不想首先在单机上设置集群,其次我必须每次都创建jar。所以完美的解决方案是如何在单台机器上运行嵌入式Hadoop
PS伪分布式模式是不好的选择,因为它将创建具有单节点的群集,所以我将只获得一个映射器,并且我必须花费一些时间在附加组态。
我想你想要伪分布式模式。在Windows上执行此操作的最简单方法是下载Cloudera Hadoop演示:https://ccp.cloudera.com/display/SUPPORT/Downloads?gclid=CKLR7Nv0wrICFQz0nAod7g8AZQ – duffymo
不,“伪分布式模式”将运行具有单节点的群集和2个JVM。所以结果将是相同的1映射器和1 reducer – yura