over partition by與group by

時間 2019-12-09

標籤 partition group 简体版

原文原文鏈接

http://www.cnblogs.com/scottpei/archive/2012/02/16/2353718.htmlexpress

今天看到一個老兄的問題， 
大概以下： 
查詢出部門的最低工資的userid 號 
表結構： 

D號      工資      部門 
userid salary   dept 
1      2000      1 
2      1000      1 
3      500       2 
4      1000      2 

有一個高人給出了一種答案： 
SELECT MIN (salary) OVER (PARTITION BY dept ) salary, dept    
FROM ss 

運行後獲得： 
1000 1 
1000 1 
500 2 
500 2 
樓主那位老兄一看以爲很高深。大嘆真是高人阿~ 
我也以爲這位老兄實在是高啊。 

但我仔細研究一下發現那位老兄對PARTITION BY的用法理解並不深入。並無解決樓主的問題。 
你們請看我修改後的語句 
SELECT userid,salary,dept,MIN (salary) OVER (PARTITION BY dept ) salary   
FROM ss 

運行後的結果： 
userid   salary dept      MIN (salary) OVER (PARTITION BY dept ) 
1 2000 1 1000 
2 1000 1 1000 
3 500 2 500 
4 1000 2 500 

你們看出端倪了吧。 
高深的未必適合。 

一下是我給出的答案： 
SELECT * FROM SS 
INNER JOIN (SELECT MIN(SALARY) AS SALARY, DEPT FROM SS GROUP BY DEPT) SS2 
USING(SALARY,DEPT) 

運行後的結果： 
salary dept     userid 
1000 1 2 
500 2 3 

由此我想到總結一下group by和partition by的用法 
group by是對檢索結果的保留行進行單純分組，通常總愛和聚合函數一塊用例如AVG（），COUNT（），max（），main（）等一塊用。 

partition by雖然也具備分組功能，但同時也具備其餘的功能。 
它屬於oracle的分析用函數。 
借用一個勤快人的數聽說明一下： 

sum()   over   (PARTITION   BY   ...)   是一個分析函數。   他執行的效果跟普通的sum   ...group   by   ...不同，它計算組中表達式的累積和，而不是簡單的和。   
    
表a，內容以下：   
B C D   
02 02 1   
02 03 2   
02 04 3   
02 05 4   
02 01 5   
02 06 6   
02 07 7   
02 03 5   
02 02 12   
02 01 2   
02 01 23   
    
select   b,c,sum(d)   e   from   a   group   by   b,c   
獲得：   
B C E   
02 01 30   
02 02 13   
02 03 7   
02 04 3   
02 05 4   
02 06 6   
02 07 7   
    
而使用分析函數獲得的結果是：   
SELECT   b,   c,   d,   SUM(d)   OVER(PARTITION   BY   b,c   ORDER   BY   d)   e   FROM   a   
B C E   
02 01 2   
02 01 7   
02 01 30   
02 02 1   
02 02 13   
02 03 2   
02 03 7   
02 04 3   
02 05 4   
02 06 6   
02 07 7   
結果不同，這樣看還不是很清楚，咱們把d的內容也顯示出來就更清楚了：   
SELECT   b,   c,   d,SUM(d)   OVER(PARTITION   BY   b,c   ORDER   BY   d)   e   FROM   a   
B C D E   
02 01 2 2                     d=2,sum(d)=2   
02 01 5 7                     d=5,sum(d)=7   
02 01 23 30                   d=23,sum(d)=30   
02 02 1 1                     c值不一樣，從新累計   
02 02 12 13   
02 03 2 2   
02 03 5 7   
02 04 3 3   
02 05 4 4   
02 06 6 6   
02 07 7 7

View Code

http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.htmloracle

OVER(PARTITION BY)函數介紹ide

開窗函數

Oracle從8.1.6開始提供分析函數，分析函數用於計算基於組的某種聚合值，它和聚合函數的不一樣之處是：對於每一個組返回多行，而聚合函數對於每一個組只返回一行。

開窗函數指定了分析函數工做的數據窗口大小，這個數據窗口大小可能會隨着行的變化而變化，舉例以下：函數

1：over後的寫法： post

over（order by salary）按照salary排序進行累計，order by是個默認的開窗函數 over（partition by deptno）按照部門分區ui

over（partition by deptno order by salary）

2：開窗的窗口範圍： over（order by salary range between 5 preceding and 5 following）：窗口範圍爲當前行數據幅度減5加5後的範圍內的。url

舉例：spa

--sum(s)over(order by s range between 2 preceding and 2 following) 表示加2或2的範圍內的求和3d

select name,class,s, sum(s)over(order by s range between 2 preceding and 2 following) mm from t2 adf 3 45 45 --45加2減2即43到47，可是s在這個範圍內只有45 asdf 3 55 55 cfe 2 74 74 3dd 3 78 158 --78在76到80範圍內有78，80，求和得158 fda 1 80 158 gds 2 92 92 ffd 1 95 190 dss 1 95 190 ddd 3 99 198

gf 3 99 198

over（order by salary rows between 5 preceding and 5 following）：窗口範圍爲當前行先後各移動5行。

舉例：

--sum(s)over(order by s rows between 2 preceding and 2 following)表示在上下兩行之間的範圍內 select name,class,s, sum(s)over(order by s rows between 2 preceding and 2 following) mm from t2 adf 3 45 174 （45+55+74=174） asdf 3 55 252 （45+55+74+78=252） cfe 2 74 332 （74+55+45+78+80=332） 3dd 3 78 379 （78+74+55+80+92=379） fda 1 80 419 gds 2 92 440 ffd 1 95 461 dss 1 95 480 ddd 3 99 388 gf 3 99 293

over（order by salary range between unbounded preceding and unbounded following）或者

over（order by salary rows between unbounded preceding and unbounded following）：窗口不作限制

三、與over函數結合的幾個函數介紹

row_number()over()、rank()over()和dense_rank()over()函數的使用

下面以班級成績表t2來講明其應用

t2表信息以下： cfe        2        74 dss        1        95 ffd        1        95 fda        1        80 gds        2        92 gf         3        99 ddd        3        99 adf        3        45 asdf       3        55 3dd        3        78
select * from                                                                          (                                                                               select name,class,s,rank()over(partition by class order by s desc) mm from t2     )                                                                               where mm=1；獲得的結果是: dss        1        95        1 ffd        1        95        1 gds        2        92        1 gf         3        99        1 ddd        3        99        1
注意：     1.在求第一名成績的時候，不能用row_number()，由於若是同班有兩個並列第一，row_number()只返回一個結果; select * from                                                                          (                                                                               select name,class,s,row_number()over(partition by class order by s desc) mm from t2     )                                                                               where mm=1； 1        95        1 --95有兩名可是隻顯示一個 2        92        1 3        99        1 --99有兩名但也只顯示一個
    2.rank()和dense_rank()能夠將全部的都查找出來：如上能夠看到採用rank能夠將並列第一名的都查找出來；      rank()和dense_rank()區別：      --rank()是跳躍排序，有兩個第二名時接下來就是第四名； select name,class,s,rank()over(partition by class order by s desc) mm from t2 dss        1        95        1 ffd        1        95        1 fda        1        80        3 --直接就跳到了第三 gds        2        92        1 cfe        2        74        2 gf         3        99        1 ddd        3        99        1 3dd        3        78        3 asdf       3        55        4 adf        3        45        5      --dense_rank()l是連續排序，有兩個第二名時仍然跟着第三名 select name,class,s,dense_rank()over(partition by class order by s desc) mm from t2 dss        1        95        1 ffd        1        95        1 fda        1        80        2 --連續排序（仍爲2） gds        2        92        1 cfe        2        74        2 gf         3        99        1 ddd        3        99        1 3dd        3        78        2 asdf       3        55        3 adf        3        45        4
--sum()over（）的使用
select name,class,s, sum(s)over(partition by class order by s desc) mm from t2 --根據班級進行分數求和 dss        1        95        190 --因爲兩個95都是第一名，因此累加時是兩個第一名的相加 ffd        1        95        190 fda        1        80        270 --第一名加上第二名的 gds        2        92        92 cfe        2        74        166 gf         3        99        198 ddd        3        99        198 3dd        3        78        276 asdf       3        55        331 adf        3        45        376

first_value() over()和last_value() over()的使用

--找出這三條電路每條電路的第一條記錄類型和最後一條記錄類型

SELECT opr_id,res_type, first_value(res_type) over(PARTITION BY opr_id ORDER BY res_type) low, last_value(res_type) over(PARTITION BY opr_id ORDER BY res_type rows BETWEEN unbounded preceding AND unbounded following) high FROM rm_circuit_route WHERE opr_id IN ('000100190000000000021311','000100190000000000021355','000100190000000000021339') ORDER BY opr_id;

注：rows BETWEEN unbounded preceding AND unbounded following 的使用

--取last_value時不使用rows BETWEEN unbounded preceding AND unbounded following的結果

SELECT opr_id,res_type, first_value(res_type) over(PARTITION BY opr_id ORDER BY res_type) low, last_value(res_type) over(PARTITION BY opr_id ORDER BY res_type) high FROM rm_circuit_route WHERE opr_id IN ('000100190000000000021311','000100190000000000021355','000100190000000000021339') ORDER BY opr_id;

以下圖能夠看到，若是不使用

rows BETWEEN unbounded preceding AND unbounded following，取出的last_value因爲與res_type進行進行排列，所以取出的電路的最後一行記錄的類型就不是按照電路的範圍提取了，而是以res_type爲範圍進行提取了。

在first_value和last_value中ignore nulls的使用

數據以下：

取出該電路的第一條記錄，加上ignore nulls後，若是第一條是判斷的那個字段是空的，則默認取下一條，結果以下所示：

--lag() over()函數用法（取出前n行數據） lag(expresstion,<offset>,<default>) with a as (select 1 id,'a' name from dual union select 2 id,'b' name from dual union select 3 id,'c' name from dual union select 4 id,'d' name from dual union select 5 id,'e' name from dual ) select id,name, lag(id,1,'')over(order by name) from a;
--lead() over()函數用法（取出後N行數據）

lead(expresstion,<offset>,<default>) with a as (select 1 id,'a' name from dual union select 2 id,'b' name from dual union select 3 id,'c' name from dual union select 4 id,'d' name from dual union select 5 id,'e' name from dual ) select id,name,lead(id,1,'')over(order by name) from a;
--ratio_to_report(a)函數用法 Ratio_to_report() 括號中就是分子，over() 括號中就是分母
with a as (select 1 a from dual            union all select 1 a from dual            union all select 1 a from dual            union all select 2 a from dual            union all select 3 a from dual            union all select 4 a from dual            union all select 4 a from dual            union all select 5 a from dual            ) select a, ratio_to_report(a)over(partition by a) b from a order by a;
with a as (select 1 a from dual            union all select 1 a from dual            union all select 1 a from dual            union all select 2 a from dual            union all select 3 a from dual            union all select 4 a from dual            union all select 4 a from dual            union all select 5 a from dual            ) select a, ratio_to_report(a)over() b from a --分母缺省就是整個佔比 order by a;
with a as (select 1 a from dual            union all select 1 a from dual            union all select 1 a from dual            union all select 2 a from dual            union all select 3 a from dual            union all select 4 a from dual            union all select 4 a from dual            union all select 5 a from dual            ) select a, ratio_to_report(a)over() b from a group by a order by a;--分組後的佔比

percent_rank用法

計算方法：所在組排名序號-1除以該組全部的行數-1，以下所示本身計算的pr1與經過percent_rank函數獲得的值是同樣的： SELECT a.deptno, a.ename, a.sal, a.r, b.n, (a.r-1)/(n-1) pr1, percent_rank() over(PARTITION BY a.deptno ORDER BY a.sal) pr2 FROM (SELECT deptno, ename, sal, rank() over(PARTITION BY deptno ORDER BY sal) r --計算出在組中的排名序號 FROM emp ORDER BY deptno, sal) a, (SELECT deptno, COUNT(1) n FROM emp GROUP BY deptno) b --按部門計算每一個部門的全部成員數 WHERE a.deptno = b.deptno;

cume_dist函數

計算方法：所在組排名序號除以該組全部的行數，可是若是存在並列狀況，則需加上並列的個數-1，以下所示本身計算的pr1與經過percent_rank函數獲得的值是同樣的： SELECT a.deptno, a.ename, a.sal, a.r, b.n, c.rn, (a.r + c.rn - 1) / n pr1, cume_dist() over(PARTITION BY a.deptno ORDER BY a.sal) pr2 FROM (SELECT deptno, ename, sal, rank() over(PARTITION BY deptno ORDER BY sal) r FROM emp ORDER BY deptno, sal) a, (SELECT deptno, COUNT(1) n FROM emp GROUP BY deptno) b, (SELECT deptno, r, COUNT(1) rn,sal FROM (SELECT deptno,sal, rank() over(PARTITION BY deptno ORDER BY sal) r FROM emp) GROUP BY deptno, r,sal ORDER BY deptno) c --c表就是爲了獲得每一個部門員工工資的同樣的個數 WHERE a.deptno = b.deptno AND a.deptno = c.deptno(+) AND a.sal = c.sal;

percentile_cont函數

含義：輸入一個百分比（該百分比就是按照percent_rank函數計算的值），返回該百分比位置的平均值以下，輸入百分比爲0.7，由於0.7介於0.6和0.8之間，所以返回的結果就是0.6對應的sal的1500加上0.8對應的sal的1600平均 SELECT ename, sal, deptno, percentile_cont(0.7) within GROUP(ORDER BY sal) over(PARTITION BY deptno) "Percentile_Cont", percent_rank() over(PARTITION BY deptno ORDER BY sal) "Percent_Rank" FROM emp WHERE deptno IN (30, 60);

若輸入的百分比爲0.6，則直接0.6對應的sal值，即1500 SELECT ename, sal, deptno, percentile_cont(0.6) within GROUP(ORDER BY sal) over(PARTITION BY deptno) "Percentile_Cont", percent_rank() over(PARTITION BY deptno ORDER BY sal) "Percent_Rank" FROM emp WHERE deptno IN (30, 60);

PERCENTILE_DISC函數

功能描述：返回一個與輸入的分佈百分比值相對應的數據值，分佈百分比的計算方法見函數CUME_DIST，若是沒有正好對應的數據值，就取大於該分佈值的下一個值。注意：本函數與PERCENTILE_CONT的區別在找不到對應的分佈值時返回的替代值的計算方法不一樣
SAMPLE：下例中0.7的分佈值在部門30中沒有對應的Cume_Dist值，因此就取下一個分佈值0.83333333所對應的SALARY來替代
SELECT ename, sal, deptno, percentile_disc(0.7) within GROUP(ORDER BY sal) over(PARTITION BY deptno) "Percentile_Disc", cume_dist() over(PARTITION BY deptno ORDER BY sal) "Cume_Dist" FROM emp WHERE deptno IN (30, 60);

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。