hadoop-streaming

0热度

2回答

的最佳数目我有一个流的map-reduce任务。我有30个插槽供处理。最初我得到一个包含60条记录的单个输入文件（字段是制表符分隔的），每个记录的第一个字段是一个数字，对于第一个记录号（第一个字段）是1，对于第二个记录号（第一个字段）是2等等。我想从这些记录中为下一步处理创建30个文件，每个包含2个记录（均匀分布）。对于这个工作我指定的减速器数量的Hadoop作业作为30.我预计，第一场将被用作

1热度

4回答

失败的地图任务数量超出允许的限制

我正在尝试使用Python进行Hadoop流式传输。我已经写了简单的地图，并通过here map脚本以帮助减少脚本如下： #!/usr/bin/env python import sys, urllib, re title_re = re.compile("<title>(.*?)</title>", re.MULTILINE | re.DOTALL | re.IGNORECASE)

6热度

2回答

将目录不是文件传递给hadoop-streaming？

在我的工作中，我需要解析许多历史日志。个别客户（有成千上万个）可能有数百个按日期分列的日志子目录。例如：日志/ Customer_One/2011-01-02-001 日志/ Customer_One/2012-02-03-001 日志/ Customer_One/2012-02-03-002 日志/ Customer_Two/2009-03-03-001 日志/ Customer_Two/20

0热度

1回答

如何将Hadoop Streaming -file标志传递给Amazon ElasticMapreduce？

-file标志允许您打包作为作业提交一部分的可执行文件，从而允许您在不首先手动将可执行文件复制到S3的情况下运行MapReduce。有没有办法在Amazon的elastic-mapreduce命令中使用-file标志？如果没有，上传要运行的二进制文件的最简单方法是什么？

0热度

1回答

hadoop中的文件分割/分区

在hadoop文件系统中，我有两个文件，分别是X和Y.通常，hadoop会生成大小为64 MB的文件X和Y的块。是否有可能迫使hadoop分割这两个文件，使得从X中32 MB创建64 MB块并从Y中创建32 MB。换句话说，是否可以重写文件分区的默认行为？

1热度

1回答

如何将自定义hadoop本地编解码器编译到libhadoop.so？

我写了一个本地hadoop压缩编解码器。为了让它与hadoop一起工作，我需要将本机（C代码）编译为libhadoop.so。我该如何做到这一点？

0热度

1回答

Hadoop Streaming任务失败

我有一个用C++编写的相对简单的程序，我一直在使用Hadoop Streaming进行MapReduce作业（我的版本Hadoop是Cloudera）。最近，我发现很多流式处理任务在任务追踪器保持失败并重新启动时，最终成功完成。我跟踪了用户日志，似乎一些MapReduce任务正在获得零输入。具体来说，错误信息如下所示： HOST=null USER=mapred HADOOP_USER=nu

0热度

1回答

如何使用hadoop streaming和ruby mappers/redurs设置分布式map-reduce作业？

我能够运行一个本地映射器和使用ruby和输入文件构建的reducer。虽然我不清楚分布式系统的行为。对于生产系统，我在两台机器上设置了HDFS。我知道如果我在HDFS上存储一个大文件，它将在两台机器上都有一些块允许并行化。我是否也需要在HDFS上存储实际的映射器和reducer文件（本例中为ruby文件）？此外，我将如何着手实际运行流式作业，以便在两个系统上以并行方式运行？

1热度

3回答

如何在两个命令行为与标准管道类似的情况下创建一个linux shell命令？

我试图使用Hadoop Streaming运行两个命令，如gunzip | map_to_old_format.py，但它与gzip说“| .gz not found”或沿着这些行的东西（只有当通过Hadoop运行..如果我运行命令行，它工作正常）。由于我无法弄清楚如何在Python中进行gunzip，我想创建一个shell脚本来完成这个命令（例如gunzip_and_map_to_old.sh

3热度

1回答

使用HBase获取数据以使用Mahout计算文本相似度

在我的项目中，我们正在尝试计算一组文档的文本相似性，这是我面临的两个问题。我不想重新计算我之前计算的文档的术语频率。例如我有10个文档，并且我计算了所有10个文档的术语频率和逆文档频率。然后我再获得2个文件。现在我不想计算已存在的10个文件的期限频率，但是想计算已经进入的新2的TF，然后对所有12个文件使用TF，并将12个文件的IDF计算为整个。如何在不重新计算现有文档的TF的情况下计算所有文