hadoop-partitioning

1热度

1回答

我想知道谁会为hadoop中的块创建块ID，无论是HDFS客户端还是名称节点。请让我知道。

3热度

1回答

我对Spark非常新，我主要使用集群来实现并行化目的。我有一个100MB的文件，其中的每一行都通过一些算法进行处理，这是相当繁重和长时间的处理。我想使用10节点群集并行处理。我知道块大小超过100MB，我试图重新分区textFile。如果我没有理解好，这repartition方法增加分区的数量： JavaRDD<String> input = sc.textFile(args[0]); inp

0热度

1回答

通过将分区目录复制到仓库中复制Hive托管表

我有一个现有的分区表，它具有YEAR, MONTH, DAY分区，但我想通过INGESTION_KEY（现有表中不存在的列）添加其他分区。这是为了适应未来的表格插入，以便每次为该日期提取数据时，我不必为每个分区分配OVERWRITE a YEAR, MONTH, DAY;我可以做一个简单的INSERT INTO并创建一个新的INGESTION_KEY分区。我需要一年的数据在我的新表中开始，所以我

1热度

1回答

如何通过在配置单元中的分区表中选择另一列来覆盖列值

嗨如何通过在配置单元中选择相同的分区表来覆盖列值。我已经通过下面的查询 CREATE TABLE user (fname string,lname string) partitioned By (day int); 执行创建表，我插入的数据，将数据插入到表后。我执行它看起来像下面选择查询： AA AA 20170201 BB BB 20170201 CC CC 20170201 DD

0热度

1回答

如何读取星火多线元素，其中的日志中的每个记录开始YYYY-MM-DD格式和日志的每一记录是多行？

我在斯卡拉下面的逻辑来实现，到目前为止这个： val hadoopConf = new Configuration(sc.hadoopConfiguration); //hadoopConf.set("textinputformat.record.delimiter", "2016-") hadoopConf.set("textinputformat.record.delimi

1热度

1回答

如何重新命名配置单元中的所有分区列

当我试图重命名现有表中的所有分区列时，分区为一年的日期范围 - 这就是我所得到的。 hive> ALTER TABLE test.usage PARTITION ('date') RENAME TO PARTITION (partition_date); FAILED: ValidationFailureSemanticException Partition spec {partition_dat

0热度

1回答

蜂巢中的分区和分层

我的蜂巢表中将有呼叫记录数据。该表的 3列field1- CALL_DATE，场2-FROM_PHONE_NUM，field3- TO_PHONE 我想查询像 1）我想具体的日期之间的所有通话记录。 2）我想在特定日期之间获取FROM_PHONE电话号码的所有通话记录。 2）我想在特定日期之间获得TO_PHONE电话号码的所有通话记录。我的桌子大小约为6TB。我可以知道我应该如何应用分区或分区

0热度

1回答

Spark分区 - 使用DISTRIBUTE BY选项

我们有一个应该处理50MM行的Spark环境。这些行包含一个关键列。唯一的密钥数量接近2000.我想要并行处理所有这2000个密钥。因此，我们使用如下的Spark SQL hiveContext.sql("select * from BigTbl DISTRIBUTE by KEY") 随后，我们有一个mapPartitions，可以很好地在所有分区上并行工作。但麻烦的是，它默认只创建200个

0热度

1回答

在HDFS中创建zip表格

我试图创建不是这样的zip表格。 CREATE TABLE example_table (| a BIGINT, b BIGINT, v STRING, d TINYINT ) STORED AS TEXTFILE LOCATION /path/to/directory/ 这不是拉链表。我还想创建带有zip的新表以获取此表的历史记录。我怎样才能创建一个zip表？

1热度

1回答

MAX（计数）功能的Apache的Pig Latin

这下面的程序，我试图做到这一点在Apache的猪，因为它是和非结构化数据我）我有数据集包含街道名称，城市和国家： II）组由国家三）我以国家的COUNT（*）的数据集现在我的O/p会像Statename的，算===>如何可能时间状态是在数据集中可用程序： realestate = LOAD DATA using pigstorage(',') as (street:string,city s