2012-09-23 57 views
1

我需要迭代在输入分裂多次。 我需要这个的原因超出了这个问题的范围。让我们假设我只是需要它(简单的解释是我需要多次使用输入分割来填充数据结构,并且分割可能足够大,以至于在第一次迭代之后它不能被容纳在内存中)Hadoop读取输入分裂多次

我想我可以做一些技巧,比如扩展FileInputFormatRecordReader来分割多次,但我想知道在Hadoop中是否有任何“标准”方法。 我不知道在Hadoop中实现这一点的任何标准方法,但可能我错过了一些东西。

任何想法?

回答

0

你想要做什么,并在多次通过拆分之一时使用该数据结构? (查找,更新等)

您是否尝试过使用一些较早的hadoop作业(可能是某些猪脚本)的并行izig操作?

+0

为了更确切地说,我正在构建一个回归树,其中包含分割中的数据。从不驻留在内存中的数据构建回归树意味着多次传递数据。 我想在本地做到这一点,只在地图一边只有一个MR作业。 每个mapper学习一棵树! – Razvan