hadoop-streaming

2热度

2回答

是否可以设置每个节点运行的地图任务数。我使用Hadoop Streaming来抓取数据，并且每个节点只需要一个地图任务来避免块。谢谢，

0热度

3回答

Hadoop的数据流将运行过程中的“本地”模式时，有设备上运行的Hadoop没有实例。我有一个shell脚本按顺序控制一组hadoop流式作业，并且需要将文件从HDFS复制到本地，具体取决于作业是否已在本地运行。有没有一种标准的方法来完成这个测试？我可以做一个“ps aux | grep something”，但这似乎是特设的。

0热度

1回答

Hadoop中的客户分区

我有一个文件，其中有'鸡''10'等记录。我想根据“”而不是“/ t”来划分数据，这样我就可以把'鸡'当作我的钥匙，'10'可以当作我的价值。我认为我们需要更改getPartition方法，但我无法正确执行。有没有人有这样的例子？感谢您的帮助。

1热度

1回答

如何读取Hadoop Sequentil文件作为Hadoop作业的输入？

我有一个Sequential文件，其中有键值对“org.apache.hadoop.typedbytes.TypedBytesWritable”，我必须提供此文件作为Hadoop作业的输入，并且必须在地图中处理它只要。我的意思是我不需要做任何需要减少的事情。 1）如何将FileInputFormat指定为SequentialFile？ 2）map函数的签名是什么。 3）我将如何从地图获得输出而不是

5热度

1回答

Hadoop针对java.nio.ByteBuffer的键类型抛出ClassCastException

我正在为我的集群设置使用“hadoop-0.20.203.0rc1.tar.gz”。每当我设置job.setMapOutputKeyClass(ByteBuffer.class); 和运行工作，我得到以下异常： 12/01/13 15:09:00 INFO mapred.JobClient: Task Id : attempt_201201131428_0005_m_000001_2, Stat

2热度

2回答

我们可以在Hadoop Streaming（lang：Python）中级联多个MapReduce作业

我正在使用Python并且必须使用Hadoop Streaming处理以下场景：a）Map1-> Reduce1-> Map2-> Reduce2 b）我不dont想要存储中间文件 c）我不想安装像Cascading，Yelp，Oozie这样的软件包。我把它们作为最后的选择。我已经通过了关于SO和其他地方的讨论，但是找不到Python的答案。你可以请建议。

6热度

1回答

我可以强迫我的减速器（复制阶段）只在所有的绘图器完成时启动

我有一个很长的地图阶段的hadoop工作，我希望其他短期工作优先运行。为此，我用hadoop job -set-priority job_id LOW设置了长时间工作的优先级。问题是，对于我的长期工作，即使只有30％的地图任务完成，还原器的复制阶段也会开始。因为所有缩小时隙都是由低优先级作业拍摄的，所以我的网格是混合的。其他小型工作可以做他们的地图阶段，但他们永远不会得到任何reducer

0热度

2回答

使用内部IP配置从属主机名 - 多个NIC

在我的Hadoop环境中，我需要配置我的从属节点，以便当它们在地图/缩减作业中进行通信时，它们使用内部IP而不是外部IP它从主机名中提取。有什么办法可以设置我的Hadoop配置文件来指定节点应该使用内部IP而不是外部IP进行通信吗？我已经在我的core-site.xml，master和slave文件中使用了内部IP。我已经做了一些研究，我见过有人提到“slave.host.name”参数，但是

0热度

1回答

如何告诉Hadoop在任务被终止时不从HDFS中删除临时目录？

默认情况下，hadoop映射任务将处理后的记录写入临时目录中的文件${mapred.output.dir}/_temporary/_${taskid}。这些文件坐在这里，直到FileCommiter将它们移动到${mapred.output.dir}（任务成功完成后）。我有这样的情况，在地图任务setup()我需要在上面提供的临时目录下创建文件，我在那里写一些过程相关的数据以后在其他地方使用。但是

1热度

1回答

不能用Hadoop流读取亨利马乌生成的序列文件

我试图通过流的亨利马乌例子之一生成的序列文件，查看其内容： hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar \ -input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ \ -output /tmp/me/mm \ -mapper "cat" \