hadoop-partitioning

    0热度

    1回答

    我怀疑如果数据偏斜,数据如何分区为零件文件。如果可能,请帮我澄清一下。 我们说这是我的department表,其中department_id作为主键。 mysql> select * from departments; 2 Fitness 3 Footwear 4 Apparel 5 Golf 6 Outdoors 7 Fan Shop 如果我通过在导入命令提-m 1使用sqoop

    1热度

    1回答

    大家好,我正在尝试安装多节点hadoop安装。一切工作正常,但我的yarnmanager没有工作。当我看着为纱节点管理器日志文件,我得到了以下信息 "org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Initialized nodemanager for null: physical-memory=-1 virtual

    -2热度

    1回答

    我的查询是 SELECT txnno, product FROM txnrecsbycat TABLESAMPLE(BUCKET 2 OUT OF 10) ORDER BY txnno; 我越来越成功,但无法查看我的O/P 我的O/P为: 就业总数= 1 启动工作1出1件 数减少任务在编译时确定:1 为了改变平均负载为一个减速器(字节): set hive.exec.reducers.byte

    0热度

    1回答

    考虑到配置了事实和维度表的配置单元中的典型数据仓库场景,比如事实表被分割为多个数据节点和分区。在加入尺寸(未分区)的事实表(分区)时,使用Map连接似乎是合乎逻辑的,因为尺寸表的尺寸很小,因此它们将存储在内存中以便跨所有节点有效地连接事实数据。 但是,很少有在线资源表明Map连接要在分区表上执行,两个表上的分区键应该与连接键相同。 所以,这就是我要寻找的答案的问题: 分区表(事实)可以是MAP与非

    0热度

    1回答

    识别一个分区: mapPartitionsWithIndex(index, iter) 的方法,结果为驱动功能到每个分区。我知道我们可以使用“index”参数来跟踪分区。 许多示例都使用此方法使用“index = 0”条件删除数据集中的标题。但是我们如何确保读取的第一个分区(翻译“index”参数等于0)确实是标题。它是随机的或基于分区器(如果使用的话)。

    2热度

    2回答

    我正在开发基于Scala的Apache Spark实现,用于将数据从远程位置导入HDFS,然后将数据从HDFS导入到Hive表。 用我的第一次火花的工作,我已经onboarded数据/文件到HDFS在一个位置说 - HDFS://sandbox.hortonworks.com:8020 /数据/分析/生/文件夹 让我们考虑一下,在上载CT_Click_Basic.csv和CT_Click_Basi

    0热度

    1回答

    我试图实现不同模式: map(key, record): emit record,null reduce(key, records): emit key 我的钥匙是一个复杂的,定制Writable。如果我发出减少键及其散列码:我收到以下输出 context.write(key, new IntWtitable(key.hashCode()); : key1 -1808

    0热度

    1回答

    我正在解析数据以便通过MapReduce作业获得某种意义。解析的数据以批次的形式出现。它通过火花流工作进一步加载到配置外部表。这是一个实时过程。现在我面临一个不寻常的事件,因为在输出位置创建了_temporary目录,由于目录无法加载到配置单元表中,因此加载到配置单元表失败。它只发生过一次,其余的工作都运行良好。请参阅截图。 _temporary目录中还包含任务ID作为子目录它们是空的。任何人都可

    2热度

    1回答

    在Hive中经历了Skewed tables之后,我对将数据存储到倾斜表的方式以及处理分区表的方式感到困惑。可有人明确说明具有显着的例子的区别在何处这两个概念 Skewed Tables and Partitioned Tables 一致,他们有什么不同? 请做提供示例。

    1热度

    1回答

    我们有一个非常大的Hadoop数据集,拥有十多年的历史事务数据 - 6.5B行和计数。我们已经在年份和月份进行了分区。 由于多种原因,性能很差。几乎我们所有的查询都可以通过customer_id进一步验证,但我们有500个客户,并且迅速增长。如果我们将查询缩小到给定的月份,我们仍然需要扫描所有记录才能找到一个客户的记录。数据现在以Parquet存储,所以主要的性能问题与扫描记录的所有内容无关。 我