oracle数据库PL/SQL的分析函数---汇总

来源：互联网发布：网络竞技游戏编辑：程序博客网时间：2024/05/29 21:29

PLSQL中有很多高级分析函数，可以很简单的处理很复杂的数学运算。
1、ROLLUP和CUBE函数，自动汇总数据
select *from test_tbl的数据这样的
col_a col_b col_c
---- ----- -----
1 b1 12
1 b1 2
1 b2 31
2 b2 7
2 b3 42
2 b3 1
2 b3 3
如果按A、B列进行汇总C列，用一般的方法是这样：
select col_a,col_b,sum(col_c) from test_tbl group by col_a,col_b 结果如下
col_a col_b sum(col_c)
---- ----- --------
1 b1 14
1 b2 31
2 b2 7
2 b3 46
但是如果这时候还想按A列汇总且要C列的合计数，那就要再用两个SQL来嵌套，很麻烦，不过用rollup就简单多了：
select nvl(col_a,'合计') col_a,nvl(col_b,decode(col_a,null,'','小计'||col_a)) col_b,sum(col_c)
from test_tbl group by rollup(col_a,col_b)，结果如下
col_a col_b sum(col_c)
---- ----- --------
1 b1 14
1 b2 31
1 小计1 45
2 b2 7
2 b3 46
2 小计2 53
合计 98
结果集刚好是先按A和B汇总，然后是按A汇总，最后是全部汇总这时候如果再要按B列汇总，怎么办呢？又要用SQL嵌套吗？不是的，如果有这要求的话，改用cube函数就OK啦
select nvl(col_a,decode(col_b,null,'合计','小计'||col_b)) col_a,nvl(col_b,decode(col_a,null,'','小计'||col_a)) col_b,sum(col_c)
from test_tbl group by cube(col_a,col_b) 结果如下
col_a col_b sum(col_c)
---- ----- --------
1 b1 14
1 b2 31
1 小计1 45
2 b2 7
2 b3 46
2 小计2 53
小计b1 b1 14
小计b2 b2 38
小计b3 b3 46
合计 98
跟刚才rollup函数得到的结果集有点不一样，那就是多了些按B列的汇总行。
2、LAG和LEAD函数，自动链接上/下行记录值
SQL> desc test_tbl
Name Type
----- ------
COL_K NUMBER
现在按顺序的往这个test_tbl表中插入一系列数据，下面是SQL：
insert into test_tbl values(1)
insert into test_tbl values(2)
insert into test_tbl values(4)
insert into test_tbl values(5)
insert into test_tbl values(8)
insert into test_tbl values(9)
insert into test_tbl values(11)
insert into test_tbl values(12)
insert into test_tbl values(13)
........
数据插完后，要检查插入的数据中，从最小数到最大数之间有那些数是没被插入表，找出这些数的前一个和后一个数？如这个例里从1到13当中有目字3、6、7、10没被插入表中，这些数的前一个和后一个分别是2和4、5和8、9和11，即
PREV_VAL NEXT_VAL
---------- ----------
2 4
5 8
9 11
如果不用分析函数要得到这后结果集那真不敢想象是怎么样的一段SQL，但用LAG分析函数那就简单了，这样写就OK
select prev_val,next_val from(
select col_k next_val,lag(col_k,1,0) over (order by col_k) prev_val from test_tbl
) where next_val-prev_val>1
对于LEAD函数是一样的，只不过它是往后链接而已。

3、RANK和DENSE_RANK函数，对数据进行排名

测试表是这样的select *from test_tbl结集如下
COL_A COL_B
---------- ----------
A 242
A 233
B 154
C 287
C 76
D 66
E 154
F 154
G 212
G 43
按A列来统计B列的值，用一般的SQL是这样select col_a, sum(col_b) from test_tbl group by col_a order by 2 desc 结果是这样
COL_A SUM(COL_B)
---------- ----------
A 475
C 363
G 255
B 154
F 154
E 154
D 66
从这个数据集可以看出A是最大的，C是第二大的，当数据多时就不知道谁是排第几了，这时用DENSE_RANK可以达到这目的
select col_a,sum(col_b),dense_rank() over (order by sum(col_b) desc) ranks from test_tbl group by col_a 结果如下
COL_A SUM(COL_B) RANKS
---------- ---------- ----------
A 475 1
C 363 2
G 255 3
B 154 4
F 154 4
E 154 4
D 66 5
这个数据集把每个值都排了名次，可以直接看得出，相同值的名次是相同的。
用RANK跟DENSE_RANK差不多，不过就是当出现在名次相同时，下一个名次会跳跃
select col_a,sum(col_b),rank() over (order by sum(col_b) desc ) ranks from test_tbl group by col_a 结果如下
COL_A SUM(COL_B) RANKS
---------- ---------- ----------
A 475 1
C 363 2
G 255 3
B 154 4
F 154 4
E 154 4
D 66 7
可以看到名次从4跳跃到7，就是因为名次4重复出现了两次

实际应用中可能会比这些例子要复杂多点，可能会先对表的数据分组，然后再用分析，如
select *from test_tbl的结果是这样的
COL_G COL_A COL_B
---------- ---------- ----------
G1 A 242
G1 A 233
G2 C 287
G2 C 76
G2 D 66
G2 E 154
G3 F 154
G3 G 212
G3 G 43
G2 B 154
对这个数据集按G和A列汇总B列进行排名，就要先对表按G列进行分组，然后再按A列汇总B列值进行排名
select col_g,col_a,sum(col_b),dense_rank() over (partition by col_g order by sum(col_b) desc ) ranks
from test_tbl
group by col_g,col_a这个SQL加了partition by先按G列分组，结果如下
COL_G COL_A SUM(COL_B) RANKS
---------- ---------- ---------- ----------
G1 A 475 1
G2 C 363 1
G2 B 154 2
G2 E 154 2
G2 D 66 3
G3 G 255 1
G3 F 154 2
可以看到名次都是在G列的组别发生变化时，就会重新开始新排列

目的：以oracle自带的scott模式为测试环境，主要通过试验体会分析函数的用法。

类似 sum(...) over ... 的使用

1.原表信息：

SQL> break on deptno skip 1 -- 为效果更明显，把不同部门的数据隔段显示。
SQL> select deptno,ename,sal
2 from emp
3 order by deptno;

DEPTNO ENAME SAL
---------- ---------- ----------
10 CLARK 2450
KING 5000
MILLER 1300

20 SMITH 800
ADAMS 1100
FORD 3000
SCOTT 3000
JONES 2975

30 ALLEN 1600
BLAKE 2850
MARTIN 1250
JAMES 950
TURNER 1500
WARD 1250

已选择14行。

2.先来一个简单的，注意over(...)条件的不同，
使用 sum(sal) over (order by ename)... 查询员工的薪水“连续”求和,
注意over (order by ename)如果没有order by 子句，求和就不是“连续”的，
放在一起，体会一下不同之处：

SQL> break on '' -- 取消数据分段显示
SQL> select deptno,ename,sal,
2 sum(sal) over (order by ename) 连续求和,
3 sum(sal) over () 总和, -- 此处sum(sal) over () 等同于sum(sal)
4 100*round(sal/sum(sal) over (),4) "份额(%)"
5 from emp
6 /

DEPTNO ENAME SAL 连续求和总和份额(%)
---------- ---------- ---------- ---------- ---------- ----------
20 ADAMS 1100 1100 29025 3.79
30 ALLEN 1600 2700 29025 5.51
30 BLAKE 2850 5550 29025 9.82
10 CLARK 2450 8000 29025 8.44
20 FORD 3000 11000 29025 10.34
30 JAMES 950 11950 29025 3.27
20 JONES 2975 14925 29025 10.25
10 KING 5000 19925 29025 17.23
30 MARTIN 1250 21175 29025 4.31
10 MILLER 1300 22475 29025 4.48
20 SCOTT 3000 25475 29025 10.34
20 SMITH 800 26275 29025 2.76
30 TURNER 1500 27775 29025 5.17
30 WARD 1250 29025 29025 4.31

已选择14行。

3.使用子分区查出各部门薪水连续的总和。注意按部门分区。注意over(...)条件的不同，
sum(sal) over (partition by deptno order by ename) 按部门“连续”求总和
sum(sal) over (partition by deptno) 按部门求总和
sum(sal) over (order by deptno，ename) 不按部门“连续”求总和
sum(sal) over () 不按部门，求所有员工总和，效果等同于sum(sal)。

SQL> break on deptno skip 1 -- 为效果更明显，把不同部门的数据隔段显示。
SQL> select deptno,ename,sal,
2 sum(sal) over (partition by deptno order by ename) 部门连续求和,--各部门的薪水"连续"求和
3 sum(sal) over (partition by deptno) 部门总和, -- 部门统计的总和，同一部门总和不变
4 100*round(sal/sum(sal) over (partition by deptno),4) "部门份额(%)",
5 sum(sal) over (order by deptno,ename) 连续求和, --所有部门的薪水"连续"求和
6 sum(sal) over () 总和, -- 此处sum(sal) over () 等同于sum(sal)，所有员工的薪水总和
7 100*round(sal/sum(sal) over (),4) "总份额(%)"
8 from emp
9 /

DEPTNO ENAME SAL 部门连续求和部门总和部门份额(%) 连续求和总和总份额(%)
------ ------ ----- ------------ ---------- ----------- ---------- ------ ----------
10 CLARK 2450 2450 8750 28 2450 29025 8.44
KING 5000 7450 8750 57.14 7450 29025 17.23
MILLER 1300 8750 8750 14.86 8750 29025 4.48

20 ADAMS 1100 1100 10875 10.11 9850 29025 3.79
FORD 3000 4100 10875 27.59 12850 29025 10.34
JONES 2975 7075 10875 27.36 15825 29025 10.25
SCOTT 3000 10075 10875 27.59 18825 29025 10.34
SMITH 800 10875 10875 7.36 19625 29025 2.76

30 ALLEN 1600 1600 9400 17.02 21225 29025 5.51
BLAKE 2850 4450 9400 30.32 24075 29025 9.82
JAMES 950 5400 9400 10.11 25025 29025 3.27
MARTIN 1250 6650 9400 13.3 26275 29025 4.31
TURNER 1500 8150 9400 15.96 27775 29025 5.17
WARD 1250 9400 9400 13.3 29025 29025 4.31

已选择14行。

4.来一个综合的例子，求和规则有按部门分区的，有不分区的例子
SQL> select deptno,ename,sal,sum(sal) over (partition by deptno order by sal) dept_sum,
2 sum(sal) over (order by deptno,sal) sum
3 from emp;

DEPTNO ENAME SAL DEPT_SUM SUM
---------- ---------- ---------- ---------- ----------
10 MILLER 1300 1300 1300
CLARK 2450 3750 3750
KING 5000 8750 8750

20 SMITH 800 800 9550
ADAMS 1100 1900 10650
JONES 2975 4875 13625
SCOTT 3000 10875 19625
FORD 3000 10875 19625

30 JAMES 950 950 20575
WARD 1250 3450 23075
MARTIN 1250 3450 23075
TURNER 1500 4950 24575
ALLEN 1600 6550 26175
BLAKE 2850 9400 29025

已选择14行。

5.来一个逆序的，即部门从大到小排列，部门里各员工的薪水从高到低排列，累计和的规则不变。

SQL> select deptno,ename,sal,
2 sum(sal) over (partition by deptno order by deptno desc,sal desc) dept_sum,
3 sum(sal) over (order by deptno desc,sal desc) sum
4 from emp;

DEPTNO ENAME SAL DEPT_SUM SUM
---------- ---------- ---------- ---------- ----------
30 BLAKE 2850 2850 2850
ALLEN 1600 4450 4450
TURNER 1500 5950 5950
WARD 1250 8450 8450
MARTIN 1250 8450 8450
JAMES 950 9400 9400

20 SCOTT 3000 6000 15400
FORD 3000 6000 15400
JONES 2975 8975 18375
ADAMS 1100 10075 19475
SMITH 800 10875 20275

10 KING 5000 5000 25275
CLARK 2450 7450 27725
MILLER 1300 8750 29025

已选择14行。

6.体会：在"... from emp;"后面不要加order by 子句，使用的分析函数的(partition by deptno order by sal)
里已经有排序的语句了，如果再在句尾添加排序子句，一致倒罢了，不一致，结果就令人费劲了。如：

SQL> select deptno,ename,sal,sum(sal) over (partition by deptno order by sal) dept_sum,
2 sum(sal) over (order by deptno,sal) sum
3 from emp
4 order by deptno desc;

DEPTNO ENAME SAL DEPT_SUM SUM
---------- ---------- ---------- ---------- ----------
30 JAMES 950 950 20575
WARD 1250 3450 23075
MARTIN 1250 3450 23075
TURNER 1500 4950 24575
ALLEN 1600 6550 26175
BLAKE 2850 9400 29025

20 SMITH 800 800 9550
ADAMS 1100 1900 10650
JONES 2975 4875 13625
SCOTT 3000 10875 19625
FORD 3000 10875 19625

10 MILLER 1300 1300 1300
CLARK 2450 3750 3750
KING 5000 8750 8750

已选择14行