0
我想使用一个mapreduce作业将数据批量加载到多个表格。由于数据量很高,因此使用多个作业遍历数据集并加载两次会非常耗时。有没有办法做到这一点?提前致谢。在单个作业中批量加载到多个HBase表格
我想使用一个mapreduce作业将数据批量加载到多个表格。由于数据量很高,因此使用多个作业遍历数据集并加载两次会非常耗时。有没有办法做到这一点?提前致谢。在单个作业中批量加载到多个HBase表格
我正在使用Hbase。但我并不需要批量加载。但我遇到这篇文章可能会帮助你。
http://hbase.apache.org/book/arch.bulk.load.html
批量负载功能使用HBase的内部数据格式的MapReduce工作以输出表数据,然后直接加载产生StoreFiles到正在运行的群集。使用批量加载将比使用HBase API使用更少的CPU和网络资源。
是的,我已经尝试使用HFileOutFormat进行批量加载。我想知道它是否可以用于将数据加载到单个作业中的多个表中?像使用MultipleOutputs什么的? – InfamousCoconut