我在4核笔记本电脑上以伪分布式模式运行任务。我如何确保所有内核都得到有效使用。 目前我的作业跟踪器显示一次只能执行一个作业。这是否意味着只使用一个核心?Hadoop伪分布式模式下所有内核的完全利用率
以下是我的配置文件。
CONF /芯-site.xml中:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
CONF/HDFS-site.xml中:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
CONF/mapred-site.xml中:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
EDIT : 根据答案,我需要在mapred-site.xml中添加以下属性
<property>
<name>mapred.map.tasks</name>
<value>4</value>
</property>
<property>
<name>mapred.reduce.tasks</name>
<value>4</value>
</property>
mapred.map.tasks和mapred.reduce.tasks不控制每个节点的map/reduce任务数量。请在选择答案之前尝试确认。 –
@Praveen这是正确的,但由于他有1个节点,他至少需要建议它也使用更多的映射器,而不是仅提高每个跟踪器的最大值。 –
@Nemo除了在mapred-site.xml中添加4的mapred。(map | reduce).tasks值之外,是否更改了mapreduce.tasktracker。(map | reduce).tasks.maximum的值以完全利用所有核心? – AST