11

我需要计算表中各种维度的百分比。我想通过使用窗函数来计算分母来简化事情,但是我遇到了一个问题,因为分子必须是一个聚合。如何使用SQL窗口函数来计算聚合的百分比

举个简单的例子,采取如下表:

create temp table test (d1 text, d2 text, v numeric); 
insert into test values ('a','x',5), ('a','y',5), ('a','y',10), ('b','x',20); 

如果我只是想计算每个单排的份额从D1,那么窗口函数正常工作:

select d1, d2, v/sum(v) over (partition by d1) 
from test; 

"b";"x";1.00 
"a";"x";0.25 
"a";"y";0.25 
"a";"y";0.50 

但是,我需要做的就是计算出d1和d1之和的总体份额。我找的输出是这样的:

"b";"x";1.00 
"a";"x";0.25 
"a";"y";0.75 

所以我试试这个:

select d1, d2, sum(v)/sum(v) over (partition by d1) 
from test 
group by d1, d2; 

不过,现在我得到一个错误:

ERROR: column "test.v" must appear in the GROUP BY clause or be used in an aggregate function 

我假设这是因为它抱怨窗口函数没有在分组子句中说明,但窗口函数无论如何都不能放在分组子句中。

这是使用Greenplum 4.1,它是Postgresql 8.4的一个分支,共享相同的窗口函数。请注意,Greenplum不能执行相关的子查询。

回答

16

我想你实际上是在寻找的是这个:

SELECT d1, d2, sum(v)/sum(sum(v)) OVER (PARTITION BY d1) AS share 
FROM test 
GROUP BY d1, d2; 

产生请求的结果。

窗口功能应用集合函数。 sum(sum(v))中的外部sum()是本示例中的一个窗口函数,附加到OVER ...子句,而内部sum()是一个聚合。

实际上是相同的:

WITH x AS (
    SELECT d1, d2, sum(v) AS sv 
    FROM test 
    GROUP BY d1, d2 
    ) 
SELECT d1, d2, sv/sum(sv) OVER (PARTITION BY d1) AS share 
FROM x; 

或(无CTE):

SELECT d1, d2, sv/sum(sv) OVER (PARTITION BY d1) AS share 
FROM (
    SELECT d1, d2, sum(v) AS sv 
    FROM test 
    GROUP BY d1, d2 
    ) x; 

或@穆的变种。

除此之外:Greenplum引入了与4.2版相关的子查询。 See release notes.

+0

啊太棒了!那就是我所追求的。说得通。这些文档在这个东西上并不清楚。 – EvilPuppetMaster 2011-12-21 09:16:08

1

您是否需要使用窗口函数完成所有操作?听起来像你只需要对结果进行分组你必须d1d2再总结的款项:

select d1, d2, sum(p) 
from (
    select d1, d2, v/sum(v) over (partition by d1) as p 
    from test 
) as dt 
group by d1, d2 

这给了我这样的:

d1 | d2 |   sum   
----+----+------------------------ 
a | x | 0.25000000000000000000 
a | y | 0.75000000000000000000 
b | x | 1.00000000000000000000 
+1

啊真的,那确实有效。我希望没有子查询的原因是因为这实际上需要进入商务智能工具(Tableau),子查询会导致问题。 – EvilPuppetMaster 2011-12-21 09:14:27