hadoop-streaming

    0热度

    3回答

    原始问题(长版本以下)。短版本:使用ruby脚本运行hadoop流,因为安装在所有群集节点上的映射器和rvm不起作用。因为ruby未被hadoop启动的shell识别(并且rvm未被正确加载)。为什么? 我想使用wukong作为gem创建hadoop的map/reduce作业。问题是wukong gem无法通过hadoop加载(即未找到)。 Hadoop作业给我以下错误: /usr/local/r

    0热度

    1回答

    我是hadoop和hadoop流媒体的新手,所以这个错误可能很明显,我错过了。 我运行内联awk映射器命令,它工作正常。 hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.3.jar -input input -output output -mapper "/usr/bin/awk -F'\t' '\$1==\"and\"

    6热度

    2回答

    我正在使用mrjob编写地图函数。我的输入将来自HDFS目录中的文件。这些文件的名称包含一个小的但是至关重要的信息,这些信息不存在于这些文件中。有没有一种方法可以学习(在map函数中)给定键值对来自哪个输入文件的名称? 我找的这个Java代码等价物:提前 FileSplit fileSplit = (FileSplit)reporter.getInputSplit(); String fileN

    2热度

    1回答

    我有一个集群运行最近从CDH3升级的CDH4。 Hive目前工作得很好。但是,我似乎无法让它运行简单的MR Streaming作业(版本1)。纱线已安装但未使用。 下面是一个命令行输入和输出 $ /usr/lib/hadoop/bin/hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop- streaming-2.0.

    7热度

    1回答

    我有使用我的集群上运行的工作Hadoop的流 我要开始为我要添加作业名新的工作,我如何能够及格在命令行或文件上设置作业名称的选项? 在Java中,你可以这样 JobConf conf = new JobConf(WordCount.class); conf.setJobName("wordcount"); 为此,我怎么能做到这一点与Hadoop的流?

    0热度

    1回答

    我已经成功安装了hadoop稳定版本。但在安装hadoop -2.0.0版本时感到困惑。 我想在两台机器上使用联合,在两个节点上安装hadoop-2.0.0-alpha。 rsi-1,rsi-2是主机名。 什么应该是以下实现联邦属性的值。这两台机器也都用于datanode。 fs.defaulFS dfs.federation.nameservices dfs.namenode.name.dir

    8热度

    2回答

    我有一个下面的情况 我有3台机器具有以下confirguration集群。 Master Usage of /: 91.4% of 74.41GB MemTotal: 16557308 kB MemFree: 723736 kB Slave 01 Usage of /: 52.9% of 29.76GB MemTotal: 16466220 kB MemFree: 5320

    0热度

    2回答

    我是hadoop mapreduce的新手。我想开发mapreduce代码来转换一个小文件的文本文件,但以前面的文件序列。这意味着在文件的实际顺序,而不是类似于wordcount数据序列。所以可以给我什么想法?

    0热度

    1回答

    首先,让我解释一下我正在尝试做什么:)。真的让这个hadoop事情头痛,真的需要帮助,节省meeeee :) 我使用大文本文件中的每个记录执行搜索Lucene的索引,然后按结果,因为我想和写入输出。 所以,我想通过将大输入文本文件和预先创建的lucene索引放在hadoop的文件系统上来使用hadoop。然后,我更改了我的java程序,它执行文件处理(读取文件记录,在lucene上进行搜索,写入输

    0热度

    2回答

    我通过hadoop-streaming 运行的基本Map Reduce程序的Map看起来像 import sys index = int(sys.argv[1]) max = 0 for line in sys.stdin: fields = line.strip().split(",") if fields[index].isdigit(): val =