声明:我是一位新手w.r.t Hadoop和Hive。MySQL簇顶部的Hive层
我们建立了一个存储海量数据的MySql集群(版本7.2.5)。这些行运行数百万次,并根据Mysql的自动轮询逻辑进行分区。尽管我们正在利用Cluster 7.2的自适应查询本地化(Adaptive Query Localization,AQL),但我们的一些查询有多个连接,并且会运行几分钟甚至几小时。
在这种情况下,我可以使用Hive与Hadoop一起查询数据库并检索数据吗?它会使查询更快吗?它是否重复其文件系统中的数据?这种方法有什么优点和缺点?
我的意图是使用Hive作为MySQL Cluster上的一层,并将它用于从MySQL Cluster DB读取和写入数据。我的应用程序中没有任何交易。那真的有可能吗?
所以这看起来像一个长期项目。那么这里有什么更好?如果我们编写自己的MapReduce作业,那么仅使用HDFS/HIVE的hadoop可以帮助减少阅读时间。 –
我认为最简单的解决方案是将数据从MySQL加载到Hive/Hadoop并在那里查询。它将解决可伸缩性问题并带来延迟问题 - 您无法将配置单元集群中的数据保持最新状态。 –