1
我需要迭代在输入分裂多次。 我需要这个的原因超出了这个问题的范围。让我们假设我只是需要它(简单的解释是我需要多次使用输入分割来填充数据结构,并且分割可能足够大,以至于在第一次迭代之后它不能被容纳在内存中)Hadoop读取输入分裂多次
我想我可以做一些技巧,比如扩展FileInputFormat
和RecordReader
来分割多次,但我想知道在Hadoop中是否有任何“标准”方法。 我不知道在Hadoop中实现这一点的任何标准方法,但可能我错过了一些东西。
任何想法?
为了更确切地说,我正在构建一个回归树,其中包含分割中的数据。从不驻留在内存中的数据构建回归树意味着多次传递数据。 我想在本地做到这一点,只在地图一边只有一个MR作业。 每个mapper学习一棵树! – Razvan