如果一个人有这样的数据:自猪交叉联接被忽略
A = LOAD 'data' AS (a1:int,a2:int,a3:int);
DUMP A;
(1,2,3)
(4,2,1)
然后一个交叉联接被做在A上,A:
B = CROSS A, A;
DUMP B;
(1,2,3)
(4,2,1)
为什么是第二一个优化从查询中取出?
信息:猪版0.11
== == UPDATE
如果我排序,如:
C = ORDER A BY a1;
D = CROSS A, C;
它会给一个正确的交叉联接。
是因为框架的数据流性质吗? – 2013-03-06 20:00:02
这是因为背景中产生的map-reduce作业的类型:但是您执行连接时,需要两个单独的输入。 – davek 2013-03-06 20:10:07