2016-01-05 35 views
0

我们有我们正计划转换为Hadoop的一个datawarehousing应用。将数据加载到HIVE支持前端应用

目前,有20个进,我们每天收到的基础上,加载这个数据到MySQL数据库。

随着数据越来越大,我们计划迁移到Hadoop的更快的查询处理。

由于我们正打算将数据加载到HIVE每天,而不是MySQL中的第一步。

问题: - 1.可我转换的Hadoop类似于DWH应用程序来处理日常的文件? 2.当我在主节点中加载数据时,它会自动同步吗?

回答

0

这真的取决于你的数据的大小。问题有点复杂,但总的来说,你将不得不设计你自己的管道。

  1. 如果您正在分析原始日志,HDFS将是一个不错的选择。如果您仍需要某些MySQL数据,则可以使用Java,Python或Scala来每日安排Hive作业,并使用Sqoop。
  2. 在Hive中,您将不得不创建分区表,以便在查询执行时同步并可用。分区创建也可以预定。

我建议使用Impala而不是Hive,因为它更可调,容错更容易使用。

相关问题