hadoop-streaming

    0热度

    2回答

    的最佳数目我有一个流的map-reduce任务。我有30个插槽供处理。最初我得到一个包含60条记录的单个输入文件(字段是制表符分隔的),每个记录的第一个字段是一个数字,对于第一个记录号(第一个字段)是1,对于第二个记录号(第一个字段)是2等等。我想从这些记录中为下一步处理创建30个文件,每个包含2个记录(均匀分布)。 对于这个工作我指定的减速器数量的Hadoop作业作为30.我预计,第一场将被用作

    1热度

    4回答

    我正在尝试使用Python进行Hadoop流式传输。我已经写了简单的地图,并通过here map脚本以帮助减少脚本如下: #!/usr/bin/env python import sys, urllib, re title_re = re.compile("<title>(.*?)</title>", re.MULTILINE | re.DOTALL | re.IGNORECASE)

    6热度

    2回答

    在我的工作中,我需要解析许多历史日志。个别客户(有成千上万个)可能有数百个按日期分列的日志子目录。例如: 日志/ Customer_One/2011-01-02-001 日志/ Customer_One/2012-02-03-001 日志/ Customer_One/2012-02-03-002 日志/ Customer_Two/2009-03-03-001 日志/ Customer_Two/20

    0热度

    1回答

    -file标志允许您打包作为作业提交一部分的可执行文件,从而允许您在不首先手动将可执行文件复制到S3的情况下运行MapReduce。有没有办法在Amazon的elastic-mapreduce命令中使用-file标志?如果没有,上传要运行的二进制文件的最简单方法是什么?

    0热度

    1回答

    在hadoop文件系统中,我有两个文件,分别是X和Y.通常,hadoop会生成大小为64 MB的文件X和Y的块。是否有可能迫使hadoop分割这两个文件,使得从X中32 MB创建64 MB块并从Y中创建32 MB。换句话说,是否可以重写文件分区的默认行为?

    1热度

    1回答

    我写了一个本地hadoop压缩编解码器。为了让它与hadoop一起工作,我需要将本机(C代码)编译为libhadoop.so。 我该如何做到这一点?

    0热度

    1回答

    我有一个用C++编写的相对简单的程序,我一直在使用Hadoop Streaming进行MapReduce作业(我的版本Hadoop是Cloudera)。 最近,我发现很多流式处理任务在任务追踪器保持失败并重新启动时,最终成功完成。我跟踪了用户日志,似乎一些MapReduce任务正在获得零输入。具体来说,错误信息如下所示: HOST=null USER=mapred HADOOP_USER=nu

    0热度

    1回答

    我能够运行一个本地映射器和使用ruby和输入文件构建的reducer。 虽然我不清楚分布式系统的行为。 对于生产系统,我在两台机器上设置了HDFS。我知道如果我在HDFS上存储一个大文件,它将在两台机器上都有一些块允许并行化。我是否也需要在HDFS上存储实际的映射器和reducer文件(本例中为ruby文件)? 此外,我将如何着手实际运行流式作业,以便在两个系统上以并行方式运行?

    1热度

    3回答

    我试图使用Hadoop Streaming运行两个命令,如gunzip | map_to_old_format.py,但它与gzip说“| .gz not found”或沿着这些行的东西(只有当通过Hadoop运行..如果我运行命令行,它工作正常)。 由于我无法弄清楚如何在Python中进行gunzip,我想创建一个shell脚本来完成这个命令(例如gunzip_and_map_to_old.sh

    3热度

    1回答

    在我的项目中,我们正在尝试计算一组文档的文本相似性,这是我面临的两个问题。 我不想重新计算我之前计算的文档的术语频率。例如我有10个文档,并且我计算了所有10个文档的术语频率和逆文档频率。然后我再获得2个文件。现在我不想计算已存在的10个文件的期限频率,但是想计算已经进入的新2的TF,然后对所有12个文件使用TF,并将12个文件的IDF计算为整个。 如何在不重新计算现有文档的TF的情况下计算所有文