hivecontext

    0热度

    2回答

    在一些星火代码得到HiveContext,我已经看到了程序员使用这样的代码来创建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

    1热度

    2回答

    我创建了一个Maven项目作为pom.xml <spark.version>1.3.0</spark.version> <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>${

    0热度

    1回答

    我正在使用spark1.6。我正在使用spark上下文创建hivecontext。当我将数据保存到配置单元时,它会给出错误。我正在使用cloudera vm。我的配置单元位于cloudera虚拟机内,并在我的系统中启动。我可以使用IP访问虚拟机。我已经启动了虚拟机上的节俭服务器和hiveserver2。我有hive.metastore.uris val hiveContext = new Hive

    1热度

    1回答

    我想了解火花hiveContext。 当我们写hiveContext像 sqlContext=new HiveContext(sc) sqlContext.sql("select * from TableA inner join TableB on (a=b) ") 是使用星火引擎或蜂房引擎它使用查询?我相信上面的查询是通过Spark Engine执行的。但是,如果这就是为什么我们需要数据框

    0热度

    1回答

    我在pyspark中使用Dataframe。我有一个表,如表1所示。我需要得到表2其中: num_category - 这是多少型动物类别每个ID 总和(计数) - 这是第三列的表1中每个ID的总和。 实施例: 表1 id |category | count 1 | 4 | 1 1 | 3 | 2 1 | 1 | 2 2 | 2 | 1 2 | 1 | 1 表2 id |num_c

    0热度

    1回答

    我是Spark的新手。这是我想要做的事情。 我创建了两个数据流;第一个从文本文件读取数据并使用hivecontext将其注册为临时表。另一个持续从Kafka获得RDD,对于每个RDD,它创建数据流并将内容注册为可临时的。最后,我将这两个临时表连接在一个键上以获得最终结果集。我想将结果集插入配置单元表中。但我没有想法。试图遵循一些实例,但只能创建一个列中有一列的表格,并且不可读。你能告诉我如何将结果

    0热度

    1回答

    在我们的一个管道中,我们使用spark(java)进行聚合,并使用oozie进行编排。 该流水线使用以下几行将聚合数据写入ORC文件。 HiveContext hc = new HiveContext(sc); DataFrame modifiedFrame = hc.createDataFrame(aggregateddatainrdd, schema); modifiedFrame.wr

    1热度

    1回答

    我这样的代码: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) import sqlContext.implicits._ val customers = sqlContext.read.json("jsonfilepath") 在火花外壳出现的错误,我不明白这一点:? 17/06/19 09:59:04 ERR

    1热度

    1回答

    我试图访问在星火使用HiveContext蜂巢映射HBase的表。但我得到ClassNotFoundException例外..下面是我的代码。 import org.apache.spark.sql.hive.HiveContext val sqlContext = new HiveContext(sc) val df = sqlContext.sql("select * from dbn.h

    0热度

    2回答

    我写这个代码来获取数的整数值指定表: sc = SparkContext("local", "spar") hive_context = HiveContext(sc) hive_context.sql("use zs_trainings_trainings_db") df = hive_context.sql("select count(*) from ldg_sales")