hadoop

4热度

1回答

我移动从旧的Hadoop集群的一些软件映射内（使用用户名/密码认证）到较新的一个，具有Kerberos身份验证 2.6.0-cdh5.12.0启用。我已经能够使用AccumuloInput/OutputFormat类中设置的DelegationToken来使许多使用Accumulo的输入和/或输出的Map/Reduce作业正常工作。但是，我有1个工作，它使用AccumuloInput/Outp

0热度

1回答

结果在一个空RDD

转型我有一个RDD（combinerRDD），关于这一点我在下面加改造 JavaPairRDD<String, Integer> counts = combinerRDD.mapToPair( new PairFunction<Tuple2<LongWritable, Text>, String, Integer>() { String filename;

0热度

1回答

是否可以使用没有TRIM功能的SQOOP导入表？

我有一个SQOOP作业，可以将数据直接从Oracle数据库加载到Microsoft Azure HDInsights Hadoop集群上的Hive模式。虽然，当导入char基于字段（如varchar变量）时，我发现它们被导入为字符串。这没有错，它对我来说非常完美。但是，有一个小麻烦，这就是Hive数据库中的字符串字段占用该字段的最大长度。这意味着每次我在该领域执行条件时都会使用TRIM功能。是否有

0热度

2回答

如何从JavaSparkContext

在一些星火代码得到HiveContext，我已经看到了程序员使用这样的代码来创建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

0热度

1回答

spark-submit，客户无法通过以下方式进行身份验证：[TOKEN，KERBEROS];

我用kerberos设置hadoop集群，但是当我运行spark-submit时，它抛出异常。 17/10/19 08:46:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 192.168.92.4, executor 1): java.io.IOException: Failed on local exce

0热度

1回答

如何在Hive中将原始日期作为分区插入表中？

create table h5_qti_desc (h5id string, query string, title string, item string, query_ids string, title_ids string, item_ids string, label bigint )PARTITIONED BY (

1热度

1回答

蜂巢加入2桌人有其他分区不

我不得不表让说，表中的一个是X和表二是Z. 表Z有一个分区谓语。表X是具有以下字段 country_id, country_name 表Z含有一些数据的国家表，我想该表的country_id与表X映射我想这 select c.country_id, c.country_name, s.sales_id, s.sales_ctry_id from x_table c join z_table

-1热度

1回答

使用combineByKey将输出作为（键，可迭代[值]）

我试图将RDD(key,value)转换为RDD(key,iterable[value])，与groupByKey方法返回的输出相同。但由于groupByKey效率不高，我试图在RDD上使用combineByKey，但它不起作用。下面是使用的代码： val data= List("abc,2017-10-04,15.2", "abc,2017-10-03,19.67",

0热度

1回答

原始日志的Hadoop体系结构，但也包含点击和视图

不确定用于以下数据的体系结构。我在看下面的数据格式和容量：在查询字符串持有信息生API Apache日志（每天约15G） JSON点击和浏览的广告 - 约每天3m条目。这导致我寻找设置HDFS集群并使用fluentd或flume加载apache日志的选项。这一切看起来不错，但我不明白的是何时或如何解析apache日志以从查询字符串和路径中提取信息。例如：“/ home/category1 /

0热度

1回答

HDFS不复制块

我最近安装了Hadoop（Cloudera）。我遇到了一个错误，我在复制块下（在Cloudera Manager中，它是安装的GUI）。所以，当我运行 hdfs dfsadmin -report 我得到 Configured Capacity: 555730632704 (517.56 GB) Present Capacity: 524592504832 (488.56 GB) DFS R