2014-04-30 30 views
0

我想将mysql与hadoop中的项目集成在一起。我搜索了很多不同的方法,有两种方法:实时使用“用于hadoop的mysql应用程序”和“apache sqoop”用于非实时用途。
我发现Gora也有这个能力,但我找不到任何有关如何去做的信息。
Gora是否真正的时间? gora和mysql applier或sqoop有什么区别?
对于hadoop和mysql的集成,它是否需要任何nosql db作为接口?Apache Gora vs mysql applier和sqoop

回答

0

此时Gora的SQL模块因为某些问题而被禁用。它不能满足您的需求:(待机......在未来的版本将被再次启用

无论如何,一些解释关于戈拉:。

戈拉是一个对象映射(未明确关系),我们可以说它重点关注NoSQL,直到SQL模块重新启动...

我发现Gora是一个在后端拥有NoSQL并能够以结构化格式获取数据作为对象的好工具。

这是真的吗?gora和mysql applie有什么区别? r或sqoop?

这是,但我想这不是你在想什么。它不是一个实时自动获取工具,它不是一个自动插入工具,它不是一个解析器和插入,不是一个过滤器,不是一个...

它是Hadoop和一个可配置的数据存储(考虑像Hibernate这样的ORM)。

对于hadoop和mysql的集成,它是否需要任何nosql db作为接口?

将它与Hadoop集成非常简单,就像配置Hadoop使用GoraMapper一样简单。您会得到一张地图,其中包含对象(从您配置的NoSQL存储库映射)。

不久将与猪和级联整合,我觉得:)

而我的建议是:如果你想从/到MySQL阅读,看看Pig和Hive,虽然他们不是“实时“(你的意思是在MySQL中插入一行后立即写入HDFS?)。

我希望这会有所帮助。

+0

谢谢阿方为你的伟大的解释。我理解戈拉要好得多。关于实时性,我的意思是在程序执行期间在MySQL中写入并在HDFS中写入。 – user3318731

+0

如果你问,如果你可以在任何应用程序中使用它,答案是肯定的,你可以计划的任何应用程序,并使用戈拉访问的数据存储。它不是Hadoop专有的。 –

0

您是否试图将MySQL实例中的数据写入HDFS?您希望写入HDFS以使数据可用于其他Hadoop实用程序的原因是什么?在这种情况下,您可能希望数据采用某些兼容的格式,如Text,SequenceFile,ORC,Parquet等...

您是否试图通过MySQL进行查询并希望它在HDFS中查询数据?

我是InfiniDB的架构师
如果您正在研究扩展您的数据并希望在HDFS中使用它,并且希望在HDFS上运行MySQL兼容的数据库,那么请查看InfiniDB。
http://infinidb.co/

我们是MySQL的柱状MPP数据库引擎可以坐在ontop的,我们写IDB文件(我们已优化的文件类型)HDFS的。然后,您可以使用MySQL查询对您的数据执行分析式样搜索,并获得群集中的性能(甚至单台机器都可以提高性能)。您还可以使用sqoop与InfiniDB数据库中的数据进行交互,以提供Hadoop生态系统的交互。