hadoop-partitioning

0热度

1回答

我怀疑如果数据偏斜，数据如何分区为零件文件。如果可能，请帮我澄清一下。我们说这是我的department表，其中department_id作为主键。 mysql> select * from departments; 2 Fitness 3 Footwear 4 Apparel 5 Golf 6 Outdoors 7 Fan Shop 如果我通过在导入命令提-m 1使用sqoop

1热度

1回答

Hadoop-Installation-Multinode

大家好，我正在尝试安装多节点hadoop安装。一切工作正常，但我的yarnmanager没有工作。当我看着为纱节点管理器日志文件，我得到了以下信息 "org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Initialized nodemanager for null: physical-memory=-1 virtual

-2热度

1回答

对于一些配置单元查询，我无法看到o/p？

我的查询是 SELECT txnno, product FROM txnrecsbycat TABLESAMPLE(BUCKET 2 OUT OF 10) ORDER BY txnno; 我越来越成功，但无法查看我的O/P 我的O/P为：就业总数= 1 启动工作1出1件数减少任务在编译时确定：1 为了改变平均负载为一个减速器（字节）： set hive.exec.reducers.byte

0热度

1回答

HIVE：Map分区表中的连接

考虑到配置了事实和维度表的配置单元中的典型数据仓库场景，比如事实表被分割为多个数据节点和分区。在加入尺寸（未分区）的事实表（分区）时，使用Map连接似乎是合乎逻辑的，因为尺寸表的尺寸很小，因此它们将存储在内存中以便跨所有节点有效地连接事实数据。但是，很少有在线资源表明Map连接要在分区表上执行，两个表上的分区键应该与连接键相同。所以，这就是我要寻找的答案的问题：分区表（事实）可以是MAP与非

0热度

1回答

火花mapPartitionsWithIndex：识别一个分区

识别一个分区： mapPartitionsWithIndex(index, iter) 的方法，结果为驱动功能到每个分区。我知道我们可以使用“index”参数来跟踪分区。许多示例都使用此方法使用“index = 0”条件删除数据集中的标题。但是我们如何确保读取的第一个分区（翻译“index”参数等于0）确实是标题。它是随机的或基于分区器（如果使用的话）。

2热度

2回答

fs.rename（新路径（rawFileName），新路径（processFileName））不起作用

我正在开发基于Scala的Apache Spark实现，用于将数据从远程位置导入HDFS，然后将数据从HDFS导入到Hive表。用我的第一次火花的工作，我已经onboarded数据/文件到HDFS在一个位置说 - HDFS：//sandbox.hortonworks.com：8020 /数据/分析/生/文件夹让我们考虑一下，在上载CT_Click_Basic.csv和CT_Click_Basi

0热度

1回答

定制的可写的Hadoop MapReduce的不同模式产生重复键

我试图实现不同模式： map(key, record): emit record,null reduce(key, records): emit key 我的钥匙是一个复杂的，定制Writable。如果我发出减少键及其散列码：我收到以下输出 context.write(key, new IntWtitable(key.hashCode()); ： key1 -1808

0热度

1回答

当mapreduce作业完成时，临时目录没有从输出位置删除

我正在解析数据以便通过MapReduce作业获得某种意义。解析的数据以批次的形式出现。它通过火花流工作进一步加载到配置外部表。这是一个实时过程。现在我面临一个不寻常的事件，因为在输出位置创建了_temporary目录，由于目录无法加载到配置单元表中，因此加载到配置单元表失败。它只发生过一次，其余的工作都运行良好。请参阅截图。 _temporary目录中还包含任务ID作为子目录它们是空的。任何人都可

2热度

1回答

Hive中的倾斜与分区

在Hive中经历了Skewed tables之后，我对将数据存储到倾斜表的方式以及处理分区表的方式感到困惑。可有人明确说明具有显着的例子的区别在何处这两个概念 Skewed Tables and Partitioned Tables 一致，他们有什么不同？请做提供示例。

1热度

1回答

如何处理性能与超分区的配置单元划分

我们有一个非常大的Hadoop数据集，拥有十多年的历史事务数据 - 6.5B行和计数。我们已经在年份和月份进行了分区。由于多种原因，性能很差。几乎我们所有的查询都可以通过customer_id进一步验证，但我们有500个客户，并且迅速增长。如果我们将查询缩小到给定的月份，我们仍然需要扫描所有记录才能找到一个客户的记录。数据现在以Parquet存储，所以主要的性能问题与扫描记录的所有内容无关。我