hadoop-streaming

0热度

3回答

原始问题（长版本以下）。短版本：使用ruby脚本运行hadoop流，因为安装在所有群集节点上的映射器和rvm不起作用。因为ruby未被hadoop启动的shell识别（并且rvm未被正确加载）。为什么？我想使用wukong作为gem创建hadoop的map/reduce作业。问题是wukong gem无法通过hadoop加载（即未找到）。 Hadoop作业给我以下错误： /usr/local/r

0热度

1回答

在hadoop中找不到shell脚本

我是hadoop和hadoop流媒体的新手，所以这个错误可能很明显，我错过了。我运行内联awk映射器命令，它工作正常。 hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.3.jar -input input -output output -mapper "/usr/bin/awk -F'\t' '\$1==\"and\"

6热度

2回答

如何在MRjob中获取输入文件的名称

我正在使用mrjob编写地图函数。我的输入将来自HDFS目录中的文件。这些文件的名称包含一个小的但是至关重要的信息，这些信息不存在于这些文件中。有没有一种方法可以学习（在map函数中）给定键值对来自哪个输入文件的名称？我找的这个Java代码等价物：提前 FileSplit fileSplit = (FileSplit)reporter.getInputSplit(); String fileN

2热度

1回答

使用MR1运行简单的MapReduce Streaming作业失败CDH4

我有一个集群运行最近从CDH3升级的CDH4。 Hive目前工作得很好。但是，我似乎无法让它运行简单的MR Streaming作业（版本1）。纱线已安装但未使用。下面是一个命令行输入和输出 $ /usr/lib/hadoop/bin/hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop- streaming-2.0.

7热度

1回答

的Python的hadoop streaming：设置一个作业名

我有使用我的集群上运行的工作Hadoop的流我要开始为我要添加作业名新的工作，我如何能够及格在命令行或文件上设置作业名称的选项？在Java中，你可以这样 JobConf conf = new JobConf(WordCount.class); conf.setJobName("wordcount"); 为此，我怎么能做到这一点与Hadoop的流？

0热度

1回答

apache Hadoop-2.0.0 aplha版本安装完全集群使用fedration

我已经成功安装了hadoop稳定版本。但在安装hadoop -2.0.0版本时感到困惑。我想在两台机器上使用联合，在两个节点上安装hadoop-2.0.0-alpha。 rsi-1，rsi-2是主机名。什么应该是以下实现联邦属性的值。这两台机器也都用于datanode。 fs.defaulFS dfs.federation.nameservices dfs.namenode.name.dir

8热度

2回答

的Hadoop：作业运行在较小的一组数据不错，但无法与大型数据集

我有一个下面的情况我有3台机器具有以下confirguration集群。 Master Usage of /: 91.4% of 74.41GB MemTotal: 16557308 kB MemFree: 723736 kB Slave 01 Usage of /: 52.9% of 29.76GB MemTotal: 16466220 kB MemFree: 5320

0热度

2回答

如何在Hadoop中只包含案例？

我是hadoop mapreduce的新手。我想开发mapreduce代码来转换一个小文件的文本文件，但以前面的文件序列。这意味着在文件的实际顺序，而不是类似于wordcount数据序列。所以可以给我什么想法？

0热度

1回答

在hadoop上运行lucene搜索出错

首先，让我解释一下我正在尝试做什么:)。真的让这个hadoop事情头痛，真的需要帮助，节省meeeee :) 我使用大文本文件中的每个记录执行搜索Lucene的索引，然后按结果，因为我想和写入输出。所以，我想通过将大输入文本文件和预先创建的lucene索引放在hadoop的文件系统上来使用hadoop。然后，我更改了我的java程序，它执行文件处理（读取文件记录，在lucene上进行搜索，写入输

0热度

2回答

Hadoop的流：减速似乎并没有被运行时，mapred.reduce.tasks = 1

我通过hadoop-streaming 运行的基本Map Reduce程序的Map看起来像 import sys index = int(sys.argv[1]) max = 0 for line in sys.stdin: fields = line.strip().split(",") if fields[index].isdigit(): val =