如何将数据流式传输到EMR群集

我很欣赏有关如何将数据从本地Windows服务器传输到持久性EMR群集的想法？如何将数据流式传输到EMR群集

一些背景

我想跑得运行MR工作像字计数的例子可用持久集群。我想将文本从本地Windows Server流式传输到群集，并通过正在运行的作业进行处理。

我回顾的所有流式WordCount示例总是以S3中的静态文本文件开始，并不包括如何实现任何内容以生成流。

这是否需要分两部分对待？

先获取数据到S3
流入EMR集群？

我见过像Logstash这样的工具，它们倾向于在本地服务器上运行代理，这会在Weblog日志的末尾运行并传输它。你可能会说，我是一个Windows家伙，扩展到EMR和Linux关联中。随时让我知道是否有一些酷的命令行工具，已经这样做。

在此先感谢。

来源

2013-12-18 Peter

你真的想要流式处理，还是想偶尔发送日志文件？另外：群集是持久的，但是Hadoop作业？ – bstempi

当前EMR as-only仅支持MR，Hive，Pig，HBase和Impala。 MR/Hive/Pig以面向批处理的方式处理数据，并且无法将数据流式传输给它们。虽然HBase是NoSQL DB，而Impala用于交互式即席查询。

对于处理流数据，有许多其他选项，如Storm,Samza,S4。从AWS有Kinesis，最近已被迁移到GA。

来源

2013-12-18 21:30:43

是一个静态文件将进入S3，然后成为您的EMR集群作业的输入。但我相信你想要一个持久集群的事实意味着你从Windows服务器继续流式传输。是这样吗？如果需要，您需要创建一个AWS Kinesis Stream，通过调用Putrecord来配置将数据放入流的碎片的生产者。开始阅读“Developing Record Consumer Applications”

来源

2013-12-31 15:54:34 SmarterKey

如何将数据流式传输到EMR群集

回答

相关问题