hive

    0热度

    1回答

    我们有一个要求,我们要创建一个用户配置文件数据。这个配置文件数据/模式将随着时间的推移而不断发展,越来越多的属性将被添加到配置文件中。一些数据可能被删除,更新和扩展。我想知道Hive + Avro是否适合这种用例(我认为配置单元不是无模式,不支持模式演变 - 更适合不可变的数据)。 HBase/Cassandra会是一个不错的选择吗?

    -1热度

    2回答

    我想使用id计算总和和grouby,并将id转换为列标题和sum作为值。 例如 ID|amount 1|100 1|200 2|100 最终输出 1|2 300|100 任何指针: 我曾尝试下面的查询 select * from table pivot(sum(amount) for id in ("666","111")) 但得到以下错误,如果我看不到错过了任何EOF org

    0热度

    1回答

    我的需求是启用ODBC/JDBC访问SparkSQL 临时表,其中有一个Spark中的DataFrame(混合基于JSON和流)。 我使它在Spark 1.6中工作,然后最近升级到Spark到2.1.1。我调整了我的代码作为this question中的第二个应答者。我注意到,对这一条款弃用警告,但是: val sqlContext = new org.apache.spark.sql.SQLCo

    1热度

    1回答

    我有下表获取增量更新。我需要编写一个普通的Hive查询来合并具有相同键值和最新值的行。 Key | A | B | C | Timestamp K1 | X | Null | Null | 2015-05-03 K1 | Null | Y | Z | 2015-05-02 K1 | Foo | Bar | Baz | 2015-05-01 想要得到的: Key | A | B | C |

    1热度

    2回答

    我必须在HIVE中从此数组中提取timeStamp列? [{ “时间戳”:1506411499989, “状态”: “广播”}]

    0热度

    1回答

    想知道是否可以跳过Aws Athena的org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe中的标题行。我尝试过tblproperties ('skip.header.line.count' = '1'),但不起作用。我的头文件与OpenCSVSerDe协同工作,但它似乎只支持string数据类型,这将在查询中结束很多工作。

    0热度

    1回答

    我有一个叫做计划表,有以下栏目: ProgDate(Date) Episode(String) Impression_id(int) ProgName(String) 我想找出每个日期和事件总的印象,对此我有以下查询这是工作的罚款 Select progdate, episode, count(distinct impression_id) Impression from Progr

    -1热度

    1回答

    我有两列看起来像这样在一个蜂巢表: Seconds_col Timestamp_col 87 2017-09-25 08:06:00.0 59 2017-09-25 08:10:00.0 我试图创建另一个时间戳列是seconds_col + timestamp_col的总和,但我有问题搞清楚如何将类型为BIGInt的seconds_col加入Timestamp_

    0热度

    1回答

    我的目标是: 处理昨天的数据,并把结果放到另一个表中。 所以我写了这个查询,但partition(d=my_yesterday())似乎不工作。 insert overwrite table t1 partition(d=my_yesterday()) select my_udtf(a, b, c) as (e, f, g, h) from t2 where d=my_yest

    0热度

    1回答

    我有2个数据帧: dataframe1具有70000行,如: location_id, location, flag 1,Canada,active 2,Paris,active 3,London,active 4,Berlin,active 对于每个位置二DF lookup已修改IDS(此数据帧被修改的时间到时间),像: id,location 1,Canada 10,Paris