2016-01-27 37 views
1

仅为分布式任务执行使用spark是否有益。我有处理大量数据集的要求(从数据库读取,处理,写入数据库),但是处理完成的是行级。这意味着我不需要减少或机器学习。执行分布式任务的工具

对于这种需求使用spark是否是一种矫枉过正的行为。什么最适合这种要求。我不希望进入编写软件基础架构,这将优化分发,处理故障,重试等。

回答

1

Spark更适用于处理(真正)大型数据集和内存。一种选择是使用任何开源码IMDG并以类似的方式处理数据,但(可能)具有较低的复杂性。

您也可以根据您想要使用的语言选择您的IMDG引擎。对于.Net你可以使用NCache和Java有很多,但你可以使用TayzGrid

+1

感谢您的回复。从功能的角度来看,对于我来说Spark或TayzGrid都是一样的。如果数据大小是唯一的标准,我的处理数据范围从MB到几百GB,请求不同。 – Pacchy

+0

很高兴帮助。任何技术的过度使用都可以通过它产生的技术债务来计算。简而言之,您投入的时间和金钱是否值得付出努力?当你得到答案时,你会选择你的技术。 –