hive

    1热度

    2回答

    我一直在考虑如何在Hive中执行此操作。 例如,我在我想提取的日志文件中有一个特定的字段(这已经可以在Hive中实现),然后我想将该字段的值映射到其他值。该映射由自定义的业务逻辑确定,该业务逻辑在Java类中编码。 如何在Hive中使用此Java类?

    28热度

    3回答

    我正在寻找Hive中的内置字符串拆分函数? 例如如果字符串是 A | B | C | d |电子 然后我想有像 阵列分裂的功能(字符串输入,字符分隔符) 使得我回来[A, B,C,d,E]。 Hive中是否存在这样的内置分割函数? 我只能看到regexp_extract和regexp_replace。我很想看到一个indexOf()和split() 字符串函数。 感谢 阿贾伊

    12热度

    4回答

    所以我有5行这样 userid, col -------------- 1, a 1, b 2, c 2, d 3, e 我会怎么做查询,使其看起来像这样 userid, combined 1, a b 2, c d 3, e

    2热度

    1回答

    在MySQL可以匹配“12684041234”的最长前缀你会做 SELECT num_prefix FROM nums WHERE '12684041234' LIKE CONCAT(num_prefix, '%') AND LENGTH(num_prefix) = ( SELECT MAX(LENGTH(num_prefix)) FROM nums WHERE

    4热度

    1回答

    我的配置单元查询有多个外部连接,需要很长时间才能执行。我想知道是否将它分解成多个较小的查询并使用猪进行转换是有意义的。 有没有一种方法可以查询配置单元表或读取猪脚本中的配置单元表数据? 感谢

    2热度

    2回答

    最近,我遇到了一个博客,作者提到了关于集成Hbase和Hive的博客。这将是可能的吗?如果是的话,两者的优势是什么(在性能和可伸缩性方面)。如果我错了,请纠正我。

    1热度

    1回答

    我有很多亚马逊简单数据库域中的数据。我想在Elastic Map Reduce(在hadoop之上)启动Hive,并以某种方式从simpledb导入数据,或者连接到simpledb并在其上运行hiveql查询。我有导入数据的问题。任何指针?

    7热度

    3回答

    我正在寻找替换一堆执行夜间/小时数据汇总和大量数据统计收集的Python ETL脚本。 我想达成什么是 鲁棒性 - 一个失败的作业/步应自动重新启动。在某些情况下,我想执行恢复步骤。 框架必须能够从崩溃中恢复。我想这里需要一些持久性。 监控 - 我需要能够监控作业/步骤的进度,并且最好查看关于性能的历史和统计数据。 可追溯性 - 我必须能够理解执行的状态 手动干预 - 很高兴能...能够从API/

    0热度

    1回答

    我正在尝试一个小型hadoop设置(用于实验)只有2台机器。我正在加载大约13GB的数据,大约3900万行的表格,使用Hive的复制因子为1。 我的问题是hadoop始终将所有这些数据存储在单个datanode上。只有当我使用setrep将dfs_replication因子更改为2时,hadoop才会在另一个节点上复制数据。我也尝试过平衡器($HADOOP_HOME/bin/start-balan

    1热度

    2回答

    我有一个s3存储桶,其中包含大约300GB的日志文件,没有特别的顺序。 我想要使用日期时间戳将这些数据分区以便在hadoop-hive中使用,以便与特定日期相关的日志行聚集在同一个s3“文件夹”中。例如,对于1月1日的日志条目将匹配下列命名文件: s3://bucket1/partitions/created_date=2010-01-01/file1 s3://bucket1/partitio