2012-05-17 40 views
1

我想我有一个在this thread问过类似的问题,但我会尽量更具体...使用AWS EMR周期性处理数据

什么是使用AWS周期性处理数据的最佳方式。例如,我想处理一些每分钟汇总到S3中的报告。是否最好的方法是通过脚本每分钟向现有作业添加一个步骤?

回答

2

好了,现在我会写一个脚本:

  • 获取作业流程细节从AWS
  • 如果作业处于等待状态的 - 增加一个新的台阶,以工作
  • 由于我正在使用aws PHP AmazonEMR,我将添加一些代码来处理最大256个步长的 (例如,使用相同的 参数创建新的作业流程,如果我有200多个 步骤,则终止现有的作业流程)。

一次我的代码准备好,后来有一次我看到它在生产如何保持几个星期

我会更新这个线程
+0

它在生产中是如何进行的?我看到它已经有几年了。只是问问。 :) – siliconsenthil

1

我会用行动引导到安装在cron作业主节点。

0

考虑(新)AWS Lambda服务。您上传脚本并设置S3桶/文件夹进行监视。每次将新输入添加到文件夹时都会运行代码,并根据需要旋转EC2实例以跟上需求。

https://aws.amazon.com/lambda/