hive

    1热度

    1回答

    我在AWS一个蜂房表名为table1仅带有一列,它看起来像图所示: COL1 (null) active 试图下面查询 select * from table1 where COL1 NOT IN ('reversed') 蜂房是返回只有一行 COL1 active 为什么它不返回记录(null)? 我知道修正是修改条件如下。但我想调试这个问题,以便这不会对其他查询 wher

    0热度

    1回答

    我想要拿出最好的HiveQL查询来获取行列表,其中一列将具有该节点具有的(直接)子节点的数量。数据库是分层的,所以它看起来是这样的: | ID | Some other column | ParentID | +-----------------------------------+ | 1 | XXXXXXXXXX x X X | NULL | | 2 | XXXXXXXXXX x X

    -2热度

    1回答

    编写一个SQL生成与给定条件的员工数据集的报告,如果平均年龄> 35则规定值notok数据集 id name age dept salary 1 tt 51 it 4000 2 kk 56 it 6000 3 mm 45 sales 7000 4 kk 25 sales 9000 5 op 24 hr 4000 6 op 24 hr 8000 输出 dept avgage sta

    2热度

    1回答

    我想用scala来访问spark应用程序中的HIVE。 我的代码: val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir

    0热度

    2回答

    是不是Hive和SparkSQL不支持datetime的数据类型? 从我阅读的参考文献中,他们似乎只支持date和timestamp。前者不是时间分量(即小时,分钟和秒);后者具有很高的精确度(低至毫秒),但并不是人类可读的(它总是需要通过from_unixtime()或date_format()进行转换,结果将是字符串,而不是datetime类型)。 相比之下,其他数据库系统(如MySQL)具有

    0热度

    1回答

    有人可以请帮我解决这个错误。由于此例外,我无法将Hive数据加载到Elastic Search。 --Hive控制台代码 Hive> > create external table petrol_es(distributer_id STRING,distributer_name STRING,amt_IN STRING,amy_OUT STRING,vol_IN INT,vol_OUT

    0热度

    2回答

    我想这是很容易... 在蜂巢/ SparkSQL,我该如何转换unix时间戳[注1]为timestamp 数据类型? (注1:也就是说,自1970年1月1日秒/分的毫秒数) 我想from_unixtime()会做到这一点,但它给回一个字符串 ,而不是一个时间戳。以下实验说明了该问题 步骤0:制备 select from_unixtime(1508673584) as fut; 结果:

    0热度

    1回答

    我正在加载几个Oracle表格到蜂巢,它似乎正在工作,但2表格正在出错 - IllegalArgumentException: requirement failed: Decimal precision 136 exceeds max precision 38 我检查了Oracle表格,并没有与十进制(136)精度的列,在来源中。 这里是spark-shell星火/ Scala代码: val df

    0热度

    1回答

    我的输入包含大量的小ORC文件,我希望在一天的每一天结束,我想将数据拆分为100MB的块。 我的输入和输出都是S3和环境中使用的电子病历, 蜂巢参数,正在设置, set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

    0热度

    3回答

    如何创建一个常量列表并在查询的WHERE子句中使用它? 例如,我有一个蜂巢查询,在这里我说 Select t1.Id, t1.symptom from t1 WHERE lower(symptom) NOT IN ('coughing','sneezing','xyz', etc,...) 而是不断的重复这个漫长的症状名单(这使得代码非常难看)的,有没有办法提前定义它时间 MY