Apache Hadoop受谷歌MapReduce文件的启发。 MapReduce的流程可以被看作两组SIMD(单指令多数据),一个用于Mappers,另一个用于Reducers。减速器通过预定义的“键”消耗Mappers的输出。 MapReduce框架(和Hadoop)的本质是自动分区数据,确定分区和并行作业的数量,并管理分布式资源。用于非MapReduce算法的Hadoop集群并行
我有一个通用算法(不一定MapReducable)并行运行。我没有实现算法本身的MapReduce方式。相反,该算法只是一个单机python/java程序。我想并行运行64个程序副本(假设程序中没有并发问题)。即我对Hadoop集群中的计算资源比MapReduce框架更感兴趣。无论如何,我可以以这种旧式的方式使用Hadoop集群吗?