hadoop

    4热度

    1回答

    我移动从旧的Hadoop集群的一些软件映射内(使用用户名/密码认证)到较新的一个,具有Kerberos身份验证 2.6.0-cdh5.12.0启用。 我已经能够使用AccumuloInput/OutputFormat类中设置的DelegationToken来使许多使用Accumulo的输入和/或输出的Map/Reduce作业正常工作。 但是,我有1个工作,它使用AccumuloInput/Outp

    0热度

    1回答

    转型我有一个RDD(combinerRDD),关于这一点我在下面加改造 JavaPairRDD<String, Integer> counts = combinerRDD.mapToPair( new PairFunction<Tuple2<LongWritable, Text>, String, Integer>() { String filename;

    0热度

    1回答

    我有一个SQOOP作业,可以将数据直接从Oracle数据库加载到Microsoft Azure HDInsights Hadoop集群上的Hive模式。虽然,当导入char基于字段(如varchar变量)时,我发现它们被导入为字符串。这没有错,它对我来说非常完美。但是,有一个小麻烦,这就是Hive数据库中的字符串字段占用该字段的最大长度。这意味着每次我在该领域执行条件时都会使用TRIM功能。是否有

    0热度

    2回答

    在一些星火代码得到HiveContext,我已经看到了程序员使用这样的代码来创建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

    0热度

    1回答

    我用kerberos设置hadoop集群,但是当我运行spark-submit时,它抛出异常。 17/10/19 08:46:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 192.168.92.4, executor 1): java.io.IOException: Failed on local exce

    0热度

    1回答

    create table h5_qti_desc (h5id string, query string, title string, item string, query_ids string, title_ids string, item_ids string, label bigint )PARTITIONED BY (

    1热度

    1回答

    我不得不表让说,表中的一个是X和表二是Z. 表Z有一个分区谓语。 表X是具有以下字段 country_id, country_name 表Z含有一些数据的国家表,我想该表的country_id与表X映射 我想这 select c.country_id, c.country_name, s.sales_id, s.sales_ctry_id from x_table c join z_table

    -1热度

    1回答

    我试图将RDD(key,value)转换为RDD(key,iterable[value]),与groupByKey方法返回的输出相同。 但由于groupByKey效率不高,我试图在RDD上使用combineByKey,但它不起作用。下面是使用的代码: val data= List("abc,2017-10-04,15.2", "abc,2017-10-03,19.67",

    0热度

    1回答

    不确定用于以下数据的体系结构。 我在看下面的数据格式和容量:在查询字符串持有信息 生API Apache日志(每天约15G) JSON点击和浏览的广告 - 约每天3m条目。 这导致我寻找设置HDFS集群并使用fluentd或flume加载apache日志的选项。这一切看起来不错,但我不明白的是何时或如何解析apache日志以从查询字符串和路径中提取信息。例如:“/ home/category1 /

    0热度

    1回答

    我最近安装了Hadoop(Cloudera)。我遇到了一个错误,我在复制块下(在Cloudera Manager中,它是安装的GUI)。所以,当我运行 hdfs dfsadmin -report 我得到 Configured Capacity: 555730632704 (517.56 GB) Present Capacity: 524592504832 (488.56 GB) DFS R