hadoop-streaming

    2热度

    2回答

    是否可以设置每个节点运行的地图任务数。 我使用Hadoop Streaming来抓取数据,并且每个节点只需要一个地图任务来避免块。 谢谢,

    0热度

    3回答

    Hadoop的数据流将运行过程中的“本地”模式时,有设备上运行的Hadoop没有实例。我有一个shell脚本按顺序控制一组hadoop流式作业,并且需要将文件从HDFS复制到本地,具体取决于作业是否已在本地运行。有没有一种标准的方法来完成这个测试?我可以做一个“ps aux | grep something”,但这似乎是特设的。

    0热度

    1回答

    我有一个文件,其中有'鸡''10'等记录。我想根据“”而不是“/ t”来划分数据,这样我就可以把'鸡'当作我的钥匙,'10'可以当作我的价值。我认为我们需要更改getPartition方法,但我无法正确执行。有没有人有这样的例子? 感谢您的帮助。

    1热度

    1回答

    我有一个Sequential文件,其中有键值对“org.apache.hadoop.typedbytes.TypedBytesWritable”,我必须提供此文件作为Hadoop作业的输入,并且必须在地图中处理它只要。我的意思是我不需要做任何需要减少的事情。 1)如何将FileInputFormat指定为SequentialFile? 2)map函数的签名是什么。 3)我将如何从地图获得输出而不是

    5热度

    1回答

    我正在为我的集群设置使用“hadoop-0.20.203.0rc1.tar.gz”。 每当我设置job.setMapOutputKeyClass(ByteBuffer.class); 和运行工作,我得到以下异常: 12/01/13 15:09:00 INFO mapred.JobClient: Task Id : attempt_201201131428_0005_m_000001_2, Stat

    2热度

    2回答

    我正在使用Python并且必须使用Hadoop Streaming处理以下场景:a)Map1-> Reduce1-> Map2-> Reduce2 b)我不dont想要存储中间文件 c)我不想安装像Cascading,Yelp,Oozie这样的软件包。我把它们作为最后的选择。 我已经通过了关于SO和其他地方的讨论,但是找不到Python的答案。你可以请建议。

    6热度

    1回答

    我有一个很长的地图阶段的hadoop工作,我希望其他短期工作优先运行。 为此,我用hadoop job -set-priority job_id LOW设置了长时间工作的优先级。 问题是,对于我的长期工作,即使只有30%的地图任务完成,还原器的复制阶段也会开始。 因为所有缩小时隙都是由低优先级作业拍摄的,所以我的网格是混合的。 其他小型工作可以做他们的地图阶段,但他们永远不会得到任何reducer

    0热度

    2回答

    在我的Hadoop环境中,我需要配置我的从属节点,以便当它们在地图/缩减作业中进行通信时,它们使用内部IP而不是外部IP它从主机名中提取。 有什么办法可以设置我的Hadoop配置文件来指定节点应该使用内部IP而不是外部IP进行通信吗?我已经在我的core-site.xml,master和slave文件中使用了内部IP。 我已经做了一些研究,我见过有人提到“slave.host.name”参数,但是

    0热度

    1回答

    默认情况下,hadoop映射任务将处理后的记录写入临时目录中的文件${mapred.output.dir}/_temporary/_${taskid}。这些文件坐在这里,直到FileCommiter将它们移动到${mapred.output.dir}(任务成功完成后)。我有这样的情况,在地图任务setup()我需要在上面提供的临时目录下创建文件,我在那里写一些过程相关的数据以后在其他地方使用。但是

    1热度

    1回答

    我试图通过流的亨利马乌例子之一生成的序列文件,查看其内容: hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar \ -input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ \ -output /tmp/me/mm \ -mapper "cat" \