hadoop-streaming

8热度

1回答

我解析由Apache，Nginx，Darwin（视频流服务器）生成的访问日志，并按日期/ referrer/useragent为每个交付文件汇总统计信息。每小时产生大量日志，这个数字在不久的将来可能会急剧增加 - 所以通过Amazon Elastic MapReduce以分布式方式处理这类数据听起来很合理。现在我已经准备好与映射器和减速器来处理我的数据，并与下面的流程测试的全过程：上传映射器

0热度

1回答

Hadoop中如何处理日益增多的数据

在Hadoop中如何每天处理不断增长的数据：例如：第一天我可能有一些输入文件夹1个百万个文件（如Hadoop的/演示）第2天在同一个文件夹中，文件可以从现有的1个百万个文件+另一个新的1个百万个文件增大，从而达2万元。同样第3天和第4天......不断去。我的约束是 - >第1天的文件不应该在第二天处理。（即）当新文件与它们一起添加时，已处理的文件不应该再次处理。更具体地说，只有新增的

1热度

1回答

Hadoop API：Reducer的OutputFormat

我完全和hadoop API混淆。（猜它时刻都在变化）如果我没看错的，JobConf是deprecated和我们应该使用Job和Configuration类，而不是运行图从Java减少工作。它似乎虽然在最近发布hadoop 1.0.0JobConf不再弃用！所以我使用作业和配置类来运行地图缩减作业。现在，我需要将减速器输出文件放入文件夹结构中，该文件夹基于某些值，这些值是我的地图输出的一部分

1热度

1回答

使用Java Class作为映射器和Python脚本作为Reducer

我试图运行流式处理hadoop。我有两个文件。一个是mapper的java文件，另一个是reducer的python脚本。 MerkleMapper.java Class MerkleMapper extends MapREduceBase并限定map()功能。对于输入分割的每条记录，它将读取输入key(byte_offset),value(line)对并输出byte_offset和该行的散列。

0热度

1回答

hadoop-streaming：一旦工作完成后自动执行后处理？

第1步 - 我有一个hadoop流作业，需要基于可变时间的数据量处理步骤2-一旦完成作业，我需要导入所有数据转储到mongodb并创建一个平的csv文件出来吧问题有没有什么方法可以让我粘上第2步使用Hadoop流步骤1，避免做第2步手动？

0热度

2回答

如何访问和操作Hadoop中的pdf文件数据？

我想使用hadoop来阅读PDF文件，它有多可能？我只知道hadoop只能处理txt文件，所以无论如何都要解析PDF文件到txt。给我一些建议。

1热度

1回答

如何在Hadoop流中为每个节点设置最大数量的reducer？

我有一个基于C++的MapReduce作业，我正在使用Hadoop流。但是，即使在命令行配置中将它们设置为18为mapred.tasktracker.reduce.tasks.maximum=18，但每个节点的最大减速器数最多为7; 是否有其他方法阻止减速器发出更多减速任务？

7热度

3回答

如何将参数传递给python Hadoop串流作业？

对于python Hadoop流式作业，我如何将一个参数传递给例如reducer脚本，以便根据传入的参数使其行为不同？据我所知，流作业称为格式： Hadoop的罐子Hadoop的streaming.jar - 输入 - 输出-mapper mapper.py -reducer reducer.py ... 我想影响reducer.py。

0热度

2回答

限制在Hadoop Streaming上运行的mappers的数量

是否可以限制在任何给定时间使用Hadoop Streaming运行作业的mappers的数量？例如，我有一个可以为每个节点运行1个任务的28节点群集。如果我有100个任务的工作，我想在任何时候只使用28个节点中的20个。我想限制一些作业，因为它们可能包含许多长时间运行的任务，我有时希望运行一些更快的运行作业，并确保它们能够立即运行，而不是等待长时间运行的作业完成。我看到了this的问题和标题是现

0热度

3回答

使用Python和Python子流程进行Hadoop流式传输

我已经建立了一个基本的hadoop主从式集群设置并能够在集群上运行mapreduce程序（包括python）。现在我想运行一个访问C二进制文件的Python代码，所以我使用了子进程模块。我能够使用hadoop streaming来获得正常的python代码，但是当我包含子进程模块以访问二进制文件时，作业失败。正如您在下面的日志中看到的，hello可执行文件被识别为用于打包，但仍然无法运行代码。