Hadoop读取输入分裂多次

我需要迭代在输入分裂多次。我需要这个的原因超出了这个问题的范围。让我们假设我只是需要它（简单的解释是我需要多次使用输入分割来填充数据结构，并且分割可能足够大，以至于在第一次迭代之后它不能被容纳在内存中）Hadoop读取输入分裂多次

我想我可以做一些技巧，比如扩展FileInputFormat和RecordReader来分割多次，但我想知道在Hadoop中是否有任何“标准”方法。我不知道在Hadoop中实现这一点的任何标准方法，但可能我错过了一些东西。

任何想法？

2012-09-23 Razvan

你想要做什么，并在多次通过拆分之一时使用该数据结构？（查找，更新等）

您是否尝试过使用一些较早的hadoop作业（可能是某些猪脚本）的并行izig操作？

2012-09-23 10:58:10

为了更确切地说，我正在构建一个回归树，其中包含分割中的数据。从不驻留在内存中的数据构建回归树意味着多次传递数据。我想在本地做到这一点，只在地图一边只有一个MR作业。每个mapper学习一棵树！ – Razvan

回答