2014-10-06 33 views
0

我有几个问题。了解分布

  1. 我想知道我们是否需要担心Netezza在使用select语句(而不是创建表)时的分布。 我基本上试图通过连接到Netezza并选择有几个连接的视图来创建SAS中的数据集。我想知道这将如何影响Netezza的性能,如果我直接在SAS中创建表。

  2. 我正在通过连接customer_id上的另外两个表来创建表。但是,输出数据集不包含customer_id作为列。我可以在customer_id上分发这张表吗?

谢谢。

回答

0

对于第一个问题,如果不创建表格,通常不需要担心分布。它有助于理解您正在选择的表的分配方法,但它当然不是必需的。有一个支持你正在做的特定连接的分布方法当然可以帮助选择期间的性能(例如,如果你的连接列是分布列的超集,那么你将获得同位连接),但是如果输出的目标是SAS,那么将数据集的写入写入SAS没有影响。

对于第二个问题,表格分布在表格本身的列或列中,或者通过RANDOM(aka循环)分布方法分布。就你而言,如果你将数据集存储在Netezza的表中,那么你不能在customer_id上分发数据,因为该列不包含在数据集中。