执行分布式任务的工具

仅为分布式任务执行使用spark是否有益。我有处理大量数据集的要求（从数据库读取，处理，写入数据库），但是处理完成的是行级。这意味着我不需要减少或机器学习。执行分布式任务的工具

对于这种需求使用spark是否是一种矫枉过正的行为。什么最适合这种要求。我不希望进入编写软件基础架构，这将优化分发，处理故障，重试等。

2016-01-27 Pacchy

Spark更适用于处理（真正）大型数据集和内存。一种选择是使用任何开源码IMDG并以类似的方式处理数据，但（可能）具有较低的复杂性。

您也可以根据您想要使用的语言选择您的IMDG引擎。对于.Net你可以使用NCache和Java有很多，但你可以使用TayzGrid

2016-02-04 06:51:37

感谢您的回复。从功能的角度来看，对于我来说Spark或TayzGrid都是一样的。如果数据大小是唯一的标准，我的处理数据范围从MB到几百GB，请求不同。 – Pacchy

很高兴帮助。任何技术的过度使用都可以通过它产生的技术债务来计算。简而言之，您投入的时间和金钱是否值得付出努力？当你得到答案时，你会选择你的技术。 –

回答