2013-12-18 41 views
0

我很欣赏有关如何将数据从本地Windows服务器传输到持久性EMR群集的想法?如何将数据流式传输到EMR群集

一些背景

我想跑得运行MR工作像字计数的例子可用持久集群。我想将文本从本地Windows Server流式传输到群集,并通过正在运行的作业进行处理。

我回顾的所有流式WordCount示例总是以S3中的静态文本文件开始,并不包括如何实现任何内容以生成流。

这是否需要分两部分对待?

  1. 先获取数据到S3
  2. 流入EMR集群?

我见过像Logstash这样的工具,它们倾向于在本地服务器上运行代理,这会在Weblog日志的末尾运行并传输它。你可能会说,我是一个Windows家伙,扩展到EMR和Linux关联中。随时让我知道是否有一些酷的命令行工具,已经这样做。

在此先感谢。

+0

你真的想要流式处理,还是想偶尔发送日志文件?另外:群集是持久的,但是Hadoop作业? – bstempi

回答

0

当前EMR as-only仅支持MR,Hive,Pig,HBase和Impala。 MR/Hive/Pig以面向批处理的方式处理数据,并且无法将数据流式传输给它们。虽然HBase是NoSQL DB,而Impala用于交互式即席查询。

对于处理流数据,有许多其他选项,如Storm,Samza,S4。从AWS有Kinesis,最近已被迁移到GA。

0

是一个静态文件将进入S3,然后成为您的EMR集群作业的输入。 但我相信你想要一个持久集群的事实意味着你从Windows服务器继续流式传输。是这样吗? 如果需要,您需要创建一个AWS Kinesis Stream,通过调用Putrecord来配置将数据放入流的碎片的生产者。 开始阅读“Developing Record Consumer Applications

相关问题