hive

    2热度

    3回答

    我正在使用配置单元在HBase表上运行选择查询。 我想要检索的所有行与时间戳值低则X. 我的问题是如何创建选择查询像这样(我需要创建特定的方式蜂巢表?)

    3热度

    1回答

    我是hadoop map reduce framework的新手,我正在考虑使用hadoop map reduce来解析我的数据。我有数千个大分隔文件,我正在考虑编写一个map reduce作业来解析这些文件并将它们加载到配置单元数据仓库中。我在perl中编写了一个解析器,可以解析这些文件。但我坚持做与Hadoop地图相同 例如:我有一个文件,如 x = ay = bz = c ..... x =

    4热度

    4回答

    插入现有字段后,可以对Hive表进行分区吗? 我有一个10 GB的文件,包含一个日期字段和一个小时的字段。我可以将这个文件加载到一个表中,然后插入覆盖到另一个使用这些字段作为分区的分区表中吗?会像下面的工作? INSERT OVERWRITE TABLE tealeaf_event PARTITION(dt=evt.datestring,hour=evt.hour) SELECT * FROM

    0热度

    1回答

    我可以通过 add file largelookuptable 将内容添加到分布式缓存中,然后运行一堆HQL。 现在,当我有一系列命令时,如下面的 add file largelookuptable1; select blah from blahness using somehow largelookuptable1; add file largelookuptable2; select

    2热度

    3回答

    我想高效地排序一个大数据集(即使用自定义分区程序,如下所述:How does the MapReduce sort algorithm work?),但我想用配置单元来完成。 但是,Hive手册指出“order by”由单个reducer执行。 这令我感到惊讶,因为猪实施类似于文章的东西 - pig impl 我是否错过了某些东西,还是说这个配置单元并不是这个工作的正确选择?

    0热度

    1回答

    我想将HIVE作为Web服务公开,以便我的PHP程序可以调用Web服务以在UI中显示输出。我不确定如何在HIVE中做到这一点。

    7热度

    5回答

    我有一个可以并行化的解决方案,但我还没有hadoop/nosql的经验,我不确定哪个解决方案最适合我的需求。理论上,如果我有无限的CPU,我的结果应该立即返回。所以,任何帮助将不胜感激。谢谢! 这是我有: 数据集的1000 数据集键: 所有数据集具有相同的键 百万键(这个以后可能10或20元) 数据集列: 每个数据集具有相同的列 10至20列 最列是一个我们需要聚合上(平均,STDDEV和用R计算

    6热度

    2回答

    执行任何命令时,在Hive中出现以下错误。 hive> show tables; FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Unexpected exception caught. NestedThrowables: java.lang.reflect.InvocationTargetException

    2热度

    1回答

    https://cwiki.apache.org/confluence/display/Hive/HivePlugins 蜂房提供了一种方法来注册使用“添加罐”命令用户定义的函数,应如何应用程序编程寄存器这些罐子? 如果在用户定义的函数中某个特定的类定义发生了变化,我应该添加jar还是有一个不同的命令来实现这个功能。

    7热度

    6回答

    在关系数据库管理系统,如MySQL数据库thereis,是否有数据库还对蜂巢?正如我在手册上阅读,蜂巢只表,我有点迷惑一下吧.. ,什么是RDBMS和蜂巢的不同概念? 韩国社交协会前