1
仅为分布式任务执行使用spark是否有益。我有处理大量数据集的要求(从数据库读取,处理,写入数据库),但是处理完成的是行级。这意味着我不需要减少或机器学习。执行分布式任务的工具
对于这种需求使用spark是否是一种矫枉过正的行为。什么最适合这种要求。我不希望进入编写软件基础架构,这将优化分发,处理故障,重试等。
仅为分布式任务执行使用spark是否有益。我有处理大量数据集的要求(从数据库读取,处理,写入数据库),但是处理完成的是行级。这意味着我不需要减少或机器学习。执行分布式任务的工具
对于这种需求使用spark是否是一种矫枉过正的行为。什么最适合这种要求。我不希望进入编写软件基础架构,这将优化分发,处理故障,重试等。
感谢您的回复。从功能的角度来看,对于我来说Spark或TayzGrid都是一样的。如果数据大小是唯一的标准,我的处理数据范围从MB到几百GB,请求不同。 – Pacchy
很高兴帮助。任何技术的过度使用都可以通过它产生的技术债务来计算。简而言之,您投入的时间和金钱是否值得付出努力?当你得到答案时,你会选择你的技术。 –