hive

0热度

1回答

我们有一个要求，我们要创建一个用户配置文件数据。这个配置文件数据/模式将随着时间的推移而不断发展，越来越多的属性将被添加到配置文件中。一些数据可能被删除，更新和扩展。我想知道Hive + Avro是否适合这种用例（我认为配置单元不是无模式，不支持模式演变 - 更适合不可变的数据）。 HBase/Cassandra会是一个不错的选择吗？

-1热度

2回答

配置单元中的枢轴/转置

我想使用id计算总和和grouby，并将id转换为列标题和sum作为值。例如 ID|amount 1|100 1|200 2|100 最终输出 1|2 300|100 任何指针：我曾尝试下面的查询 select * from table pivot(sum(amount) for id in ("666","111")) 但得到以下错误，如果我看不到错过了任何EOF org

0热度

1回答

使用HiveThriftServer2与sqlContext的Spark 2.x

我的需求是启用ODBC/JDBC访问SparkSQL 临时表，其中有一个Spark中的DataFrame（混合基于JSON和流）。我使它在Spark 1.6中工作，然后最近升级到Spark到2.1.1。我调整了我的代码作为this question中的第二个应答者。我注意到，对这一条款弃用警告，但是： val sqlContext = new org.apache.spark.sql.SQLCo

1热度

1回答

在Hive表上合并重复记录

我有下表获取增量更新。我需要编写一个普通的Hive查询来合并具有相同键值和最新值的行。 Key | A | B | C | Timestamp K1 | X | Null | Null | 2015-05-03 K1 | Null | Y | Z | 2015-05-02 K1 | Foo | Bar | Baz | 2015-05-01 想要得到的： Key | A | B | C |

1热度

2回答

如何从HIVE阵列<String>中提取单个列？

我必须在HIVE中从此数组中提取timeStamp列？ [{ “时间戳”：1506411499989， “状态”： “广播”}]

0热度

1回答

Athena：用LazySimpleSerde跳过标题行

想知道是否可以跳过Aws Athena的org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe中的标题行。我尝试过tblproperties ('skip.header.line.count' = '1')，但不起作用。我的头文件与OpenCSVSerDe协同工作，但它似乎只支持string数据类型，这将在查询中结束很多工作。

0热度

1回答

HIVE：查找运行总计

我有一个叫做计划表，有以下栏目： ProgDate(Date) Episode(String) Impression_id(int) ProgName(String) 我想找出每个日期和事件总的印象，对此我有以下查询这是工作的罚款 Select progdate, episode, count(distinct impression_id) Impression from Progr

-1热度

1回答

如何总结BIGINT到时间戳蜂巢

我有两列看起来像这样在一个蜂巢表： Seconds_col Timestamp_col 87 2017-09-25 08:06:00.0 59 2017-09-25 08:10:00.0 我试图创建另一个时间戳列是seconds_col + timestamp_col的总和，但我有问题搞清楚如何将类型为BIGInt的seconds_col加入Timestamp_

0热度

1回答

在Hive中。我可以分区（my_partition = some_function（））吗？

我的目标是：处理昨天的数据，并把结果放到另一个表中。所以我写了这个查询，但partition(d=my_yesterday())似乎不工作。 insert overwrite table t1 partition(d=my_yesterday()) select my_udtf(a, b, c) as (e, f, g, h) from t2 where d=my_yest

0热度

1回答

创建火花数据帧基于条件

我有2个数据帧： dataframe1具有70000行，如： location_id, location, flag 1,Canada,active 2,Paris,active 3,London,active 4,Berlin,active 对于每个位置二DF lookup已修改IDS（此数据帧被修改的时间到时间），像： id,location 1,Canada 10,Paris