2013-12-18 28 views
1

我想保持windows azure hdinsight群集始终运行,以便我可以定期从我的主数据存储(即mongodb)写入更新并让它处理map-reduce作业一经请求。如何将mongodb数据连续写入正在运行的hdinsight群集

如何定期将数据从mongodb与hdinsight服务同步?我试图不必上传​​全部数据,无论何时提交新的查询,而是以某种方式预先加热

hdinsight可能吗? Hadoop甚至有可能吗? 谢谢,

+0

我应该为10gen维护一个[hadoop的mongodb连接器](http://docs.mongodb.org/ecosystem/tools/hadoop/),但我不能将它安装在hdinsight(它是一个托管服务) –

回答

1

当然可以将这些数据从Mongo推送到Hadoop中。

不幸的是,HDInsight不支持HBase,否则你可以使用类似ZeroWing的东西,这是Stripe的一个解决方案,该解决方案读取Mongo用于复制的MongoDB操作日志,然后将其写入HBase。

另一种解决方案可能是将文档从Mongo写出到Azure Blob存储,这意味着您不必始终拥有该集群,而是可以使用它来执行定期映射减少分析存储库中的文件。

你最好的方法无疑是使用Mongo Hadoop连接器。这可以安装在HDInsight中,但它有点烦琐。 I've blogged a method here.