我有一个概念性问题。减少运行时间
假设我有一个过程(任何语言),它将一个数据集作为输入,处理它并将输出写入数组。该阵列在流中使用以进一步处理。问题是代码运行时间很长。这么大以至于需要优化!
我建议的是将输入数据集划分为更小的块,并为每个数据集并行调用过程。听起来很简单!
因此我想在独立的文件中编写程序,创建一个单独的可执行文件。提交此可执行文件以用于批量处理的较小数据集。
但是这种方法的问题是,因为每个批处理作业都是一个单独的进程,所以这些作业如何创建我之前创建的数组!我可以考虑将每个作业输出写入文件,然后处理它们以创建阵列。
有没有更好的方法可以并行处理?说
感谢您的建议:)
您正在描述[MapReduce](http://en.wikipedia.org/wiki/Map_Reduce)。 – 2012-03-17 01:10:57
感谢您通知。我对此一无所知。任何理想的,如果它可以免费获得,如果它会使用它很多工作? – Richeek 2012-03-17 01:24:23