hadoop-streaming

    8热度

    1回答

    我解析由Apache,Nginx,Darwin(视频流服务器)生成的访问日志,并按日期/ referrer/useragent为每个交付文件汇总统计信息。 每小时产生大量日志,这个数字在不久的将来可能会急剧增加 - 所以通过Amazon Elastic MapReduce以分布式方式处理这类数据听起来很合理。 现在我已经准备好与映射器和减速器来处理我的数据,并与下面的流程测试的全过程: 上传映射器

    0热度

    1回答

    在Hadoop中如何每天处理不断增长的数据: 例如: 第一天我可能有一些输入文件夹1个百万个文件(如Hadoop的/演示) 第2天在同一个文件夹中,文件可以从现有的1个百万个文件+另一个新的1个百万个文件增大,从而达2万元。 同样第3天和第4天......不断去。 我的约束是 - >第1天的文件不应该在第二天处理。 (即)当新文件与它们一起添加时,已处理的文件不应该再次处理。更具体地说,只有新增的

    1热度

    1回答

    我完全和hadoop API混淆。 (猜它时刻都在变化) 如果我没看错的,JobConf是deprecated和我们应该使用Job和Configuration类,而不是运行图从Java减少工作。它似乎虽然在最近发布hadoop 1.0.0JobConf不再弃用! 所以我使用作业和配置类来运行地图缩减作业。现在,我需要将减速器输出文件放入文件夹结构中,该文件夹基于某些值,这些值是我的地图输出的一部分

    1热度

    1回答

    我试图运行流式处理hadoop。我有两个文件。一个是mapper的java文件,另一个是reducer的python脚本。 MerkleMapper.java Class MerkleMapper extends MapREduceBase并限定map()功能。对于输入分割的每条记录,它将读取输入key(byte_offset),value(line)对并输出byte_offset和该行的散列。

    0热度

    1回答

    第1步 - 我有一个hadoop流作业,需要基于可变时间 的数据量处理步骤2-一旦完成作业,我需要 导入所有数据转储到mongodb并创建一个平的csv文件出来吧 问题 有没有什么方法可以让我粘上第2步使用Hadoop流步骤1,避免做第2步手动?

    0热度

    2回答

    我想使用hadoop来阅读PDF文件,它有多可能? 我只知道hadoop只能处理txt文件,所以无论如何都要解析PDF文件到txt。 给我一些建议。

    1热度

    1回答

    我有一个基于C++的MapReduce作业,我正在使用Hadoop流。 但是,即使在命令行配置中将它们设置为18为mapred.tasktracker.reduce.tasks.maximum=18,但每个节点的最大减速器数最多为7; 是否有其他方法阻止减速器发出更多减速任务?

    7热度

    3回答

    对于python Hadoop流式作业,我如何将一个参数传递给例如reducer脚本,以便根据传入的参数使其行为不同? 据我所知,流作业称为格式: Hadoop的罐子Hadoop的streaming.jar - 输入 - 输出-mapper mapper.py -reducer reducer.py ... 我想影响reducer.py。

    0热度

    2回答

    是否可以限制在任何给定时间使用Hadoop Streaming运行作业的mappers的数量?例如,我有一个可以为每个节点运行1个任务的28节点群集。如果我有100个任务的工作,我想在任何时候只使用28个节点中的20个。我想限制一些作业,因为它们可能包含许多长时间运行的任务,我有时希望运行一些更快的运行作业,并确保它们能够立即运行,而不是等待长时间运行的作业完成。 我看到了this的问题和标题是现

    0热度

    3回答

    我已经建立了一个基本的hadoop主从式集群设置并能够在集群上运行mapreduce程序(包括python)。 现在我想运行一个访问C二进制文件的Python代码,所以我使用了子进程模块。我能够使用hadoop streaming来获得正常的python代码,但是当我包含子进程模块以访问二进制文件时,作业失败。 正如您在下面的日志中看到的,hello可执行文件被识别为用于打包,但仍然无法运行代码。