我很欣赏有关如何将数据从本地Windows服务器传输到持久性EMR群集的想法?如何将数据流式传输到EMR群集
一些背景
我想跑得运行MR工作像字计数的例子可用持久集群。我想将文本从本地Windows Server流式传输到群集,并通过正在运行的作业进行处理。
我回顾的所有流式WordCount示例总是以S3中的静态文本文件开始,并不包括如何实现任何内容以生成流。
这是否需要分两部分对待?
- 先获取数据到S3
- 流入EMR集群?
我见过像Logstash这样的工具,它们倾向于在本地服务器上运行代理,这会在Weblog日志的末尾运行并传输它。你可能会说,我是一个Windows家伙,扩展到EMR和Linux关联中。随时让我知道是否有一些酷的命令行工具,已经这样做。
在此先感谢。
你真的想要流式处理,还是想偶尔发送日志文件?另外:群集是持久的,但是Hadoop作业? – bstempi