hivecontext

0热度

2回答

在一些星火代码得到HiveContext，我已经看到了程序员使用这样的代码来创建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

1热度

2回答

星火：无法从蜂巢表中读取数据

我创建了一个Maven项目作为pom.xml <spark.version>1.3.0</spark.version> <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>${

0热度

1回答

无法使用火花在配置单元上写数据

我正在使用spark1.6。我正在使用spark上下文创建hivecontext。当我将数据保存到配置单元时，它会给出错误。我正在使用cloudera vm。我的配置单元位于cloudera虚拟机内，并在我的系统中启动。我可以使用IP访问虚拟机。我已经启动了虚拟机上的节俭服务器和hiveserver2。我有hive.metastore.uris val hiveContext = new Hive

1热度

1回答

Spark HiveContext：Spark Engine或Hive引擎？

我想了解火花hiveContext。当我们写hiveContext像 sqlContext=new HiveContext(sc) sqlContext.sql("select * from TableA inner join TableB on (a=b) ") 是使用星火引擎或蜂房引擎它使用查询？我相信上面的查询是通过Spark Engine执行的。但是，如果这就是为什么我们需要数据框

0热度

1回答

pypark中的Dataframe - 如何将聚合函数应用到两列中？

我在pyspark中使用Dataframe。我有一个表，如表1所示。我需要得到表2其中： num_category - 这是多少型动物类别每个ID 总和（计数） - 这是第三列的表1中每个ID的总和。实施例：表1 id |category | count 1 | 4 | 1 1 | 3 | 2 1 | 1 | 2 2 | 2 | 1 2 | 1 | 1 表2 id |num_c

0热度

1回答

使用Spark和Scala将数据插入Hive Table的问题

我是Spark的新手。这是我想要做的事情。我创建了两个数据流;第一个从文本文件读取数据并使用hivecontext将其注册为临时表。另一个持续从Kafka获得RDD，对于每个RDD，它创建数据流并将内容注册为可临时的。最后，我将这两个临时表连接在一个键上以获得最终结果集。我想将结果集插入配置单元表中。但我没有想法。试图遵循一些实例，但只能创建一个列中有一列的表格，并且不可读。你能告诉我如何将结果

0热度

1回答

在oozie中使用hive上下文失败的Spark作业

在我们的一个管道中，我们使用spark（java）进行聚合，并使用oozie进行编排。该流水线使用以下几行将聚合数据写入ORC文件。 HiveContext hc = new HiveContext(sc); DataFrame modifiedFrame = hc.createDataFrame(aggregateddatainrdd, schema); modifiedFrame.wr

1热度

1回答

星火SQL读取JSON文件从HDFS失败

我这样的代码： val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) import sqlContext.implicits._ val customers = sqlContext.read.json("jsonfilepath") 在火花外壳出现的错误，我不明白这一点：？ 17/06/19 09:59:04 ERR

1热度

1回答

HiveContext - 无法访问在蜂巢映射表的HBase作为外部表

我试图访问在星火使用HiveContext蜂巢映射HBase的表。但我得到ClassNotFoundException例外..下面是我的代码。 import org.apache.spark.sql.hive.HiveContext val sqlContext = new HiveContext(sc) val df = sqlContext.sql("select * from dbn.h

0热度

2回答

如何在通过DataFrame查询计数查询时获取整数值？

我写这个代码来获取数的整数值指定表： sc = SparkContext("local", "spar") hive_context = HiveContext(sc) hive_context.sql("use zs_trainings_trainings_db") df = hive_context.sql("select count(*) from ldg_sales")