我正在构建Hadoop(0.20.1)mapreduce作业,它使用HBase(0.20.1)作为数据源和数据接收器。我想用Python编写这个工作,它需要我使用hadoop-0.20.1-streaming.jar来将数据传入和传出我的Python脚本。如果数据源/接收器是HDFS文件,这工作正常。Hadoop mapreduce从HBase流式传输
Hadoop是否支持从/到HBase的mapreduce流?
我正在构建Hadoop(0.20.1)mapreduce作业,它使用HBase(0.20.1)作为数据源和数据接收器。我想用Python编写这个工作,它需要我使用hadoop-0.20.1-streaming.jar来将数据传入和传出我的Python脚本。如果数据源/接收器是HDFS文件,这工作正常。Hadoop mapreduce从HBase流式传输
Hadoop是否支持从/到HBase的mapreduce流?
这似乎是做我想做的事情,但它不是Hadoop发行版的一部分。任何其他建议或意见仍然欢迎。
你对我的问题有任何建议 - http://stackoverflow.com/questions/10953731/calculate-tf-idf-of-documents-using-hbase-as-the-datasource – JHS 2012-06-18 10:59:54
你有没有接过一看,以HBase的卡夫卡+ +星火流整合? – Mike 2016-06-26 00:11:29