hive

2热度

3回答

我正在使用配置单元在HBase表上运行选择查询。我想要检索的所有行与时间戳值低则X. 我的问题是如何创建选择查询像这样（我需要创建特定的方式蜂巢表？）

3热度

1回答

我是hadoop map reduce framework的新手，我正在考虑使用hadoop map reduce来解析我的数据。我有数千个大分隔文件，我正在考虑编写一个map reduce作业来解析这些文件并将它们加载到配置单元数据仓库中。我在perl中编写了一个解析器，可以解析这些文件。但我坚持做与Hadoop地图相同例如：我有一个文件，如 x = ay = bz = c ..... x =

4热度

4回答

按现有字段分区Hive表？

插入现有字段后，可以对Hive表进行分区吗？我有一个10 GB的文件，包含一个日期字段和一个小时的字段。我可以将这个文件加载到一个表中，然后插入覆盖到另一个使用这些字段作为分区的分区表中吗？会像下面的工作？ INSERT OVERWRITE TABLE tealeaf_event PARTITION(dt=evt.datestring,hour=evt.hour) SELECT * FROM

0热度

1回答

配置单元：从分布式缓存中删除内容

我可以通过 add file largelookuptable 将内容添加到分布式缓存中，然后运行一堆HQL。现在，当我有一系列命令时，如下面的 add file largelookuptable1; select blah from blahness using somehow largelookuptable1; add file largelookuptable2; select

2热度

3回答

如何高效地将hive数据与配置单元进行排序（排序）？

我想高效地排序一个大数据集（即使用自定义分区程序，如下所述：How does the MapReduce sort algorithm work?），但我想用配置单元来完成。但是，Hive手册指出“order by”由单个reducer执行。这令我感到惊讶，因为猪实施类似于文章的东西 - pig impl 我是否错过了某些东西，还是说这个配置单元并不是这个工作的正确选择？

0热度

1回答

作为Web服务的Apache HIVE工作

我想将HIVE作为Web服务公开，以便我的PHP程序可以调用Web服务以在UI中显示输出。我不确定如何在HIVE中做到这一点。

7热度

5回答

实时查询/汇总数百万条记录 - hadoop？ HBase的？卡桑德拉？

我有一个可以并行化的解决方案，但我还没有hadoop/nosql的经验，我不确定哪个解决方案最适合我的需求。理论上，如果我有无限的CPU，我的结果应该立即返回。所以，任何帮助将不胜感激。谢谢！这是我有：数据集的1000 数据集键：所有数据集具有相同的键百万键（这个以后可能10或20元）数据集列：每个数据集具有相同的列 10至20列最列是一个我们需要聚合上（平均，STDDEV和用R计算

6热度

2回答

配置单元在安装时不起作用

执行任何命令时，在Hive中出现以下错误。 hive> show tables; FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Unexpected exception caught. NestedThrowables: java.lang.reflect.InvocationTargetException

2热度

1回答

部署罐子用户定义函数

https://cwiki.apache.org/confluence/display/Hive/HivePlugins 蜂房提供了一种方法来注册使用“添加罐”命令用户定义的函数，应如何应用程序编程寄存器这些罐子？如果在用户定义的函数中某个特定的类定义发生了变化，我应该添加jar还是有一个不同的命令来实现这个功能。

7热度

6回答

RDBMS和Hive有什么不同？

在关系数据库管理系统，如MySQL数据库thereis，是否有数据库还对蜂巢？正如我在手册上阅读，蜂巢只表，我有点迷惑一下吧.. ，什么是RDBMS和蜂巢的不同概念？韩国社交协会前