2016-10-20 205 views
-1

我是新来的大数据,我在许多方面传来大数据,我想知道的是以下条款它们之间的区别: -相关的技术术语

1) Hadoop 
2) Apache Hadoop 
3) HDFS 
4) HIVE 
5) HQL 

按我的知识,Hive是一间我们通过HQL交互的框架。

回答

0
  1. Hadoop是一个开源框架,用于从商用硬件构建的计算机集群上的分布式存储和大型数据集。该项目以面团切割开始,以儿子的小玩具大象命名,他的儿子称他为“Hadoop”。

  2. Apache软件维护hadoop的所有版本,意味着它们是维护此开源软件的社区。

  3. HDFS是hadoop分布式文件系统,可提供对应用程序数据的高吞吐量访问。由于hive位于hadoop之上,意味着数据存储在HDFS中,但数据被HIVE引擎读取,HIVE由Facebook开发,只是在laymans术语中认为hive是作为大型数据集的查询引擎。

  4. HQL是由Facebook开发的HIVE查询语言。

你可以找到这些链接的详细信息:

http://hadoop.apache.org/

https://hive.apache.org/

0

如果你是从RDBMS背景的像我这里是我们如何能想象它:

  1. Hadoop就像oracle/mssql,我们可以在其中存储/处理/使用 数据(尽管完全不同的概念)。
  2. Hadoop,如果它不是来自像Cloudera这样的经销商, Hortonworks或MapR,并且来自开源社区Apache Foundation,那么它的 Apache Hadoop。请注意,每个分销商都有自己的Hadoop版本,并且某些功能特定于其分销版本。示例MapR在C语言中编写了整个hadoop应用程序,其中开放源代码是用Java编写的。
  3. HDFS是为Hadoop存储数据的文件系统。
  4. Hive是另一个开源项目,就像Hadoop用于访问/查询HDFS上的数据(它不是访问您的数据的唯一方法)。
  5. Hive提供了一个SQL类似的接口来查询称为HQL或Hive查询语言的数据。

Architecture Image - courtesy mssqltips