在關係型數據庫系統中,爲了知足第三範式(3NF),須要將知足「傳遞依賴」的表分離成單獨的表,經過Join 子句將相關表進行鏈接,Join子句共有三種類型:外鏈接,內鏈接,交叉鏈接;外鏈接分爲:left join、right join、full join;內連接是:inner join,交叉鏈接是:cross join。算法
一,Join子句的組成數據庫
Join子句由鏈接表,鏈接類型和On子句組成,僞代碼以下:app
from Left_Table [inner|left|right|full] join Right_Table [on condition]
1,根據位置,將參與Join的兩個表分爲左表和右表ide
在Join子句中,左表和右表進行笛卡爾集合運算,左表中的任意一行都和右表中的全部行進行「組合」,生成虛擬表(Virtual Table),虛擬表的數據行總數Rows(VT)=Rows(left_table)*Rows(right_table);函數
左表和右表進行Join操做,沒有前後順序,這點和Apply子句不一樣,Apply子句的左表先於右表執行運算;性能
2,鏈接類型測試
在外鏈接中,left,right和full關鍵字標識Join子句的"保留表":在進行外鏈接查詢時,保留表中的數據所有返回,不會被on子句過濾。優化
3,On子句,用於都虛擬表進行過濾spa
在on子句表達式中,經常使用的運算符是相等(=),也可使用不等(>,<>),like等運算符,返回的結果是布爾值;code
on子句表達式的操做數,能夠是表列(Column),常量,表達式,例如;
on left_table.column=right_table.column
on left_table.column=value
on left_table.column+xx=value
不過濾:好比設置on 1=1
4,On子句決定Join的順序
若是一個查詢包含多個Join子句,那麼On子句決定Join子句執行的順序;執行Join的順序是:tb和tc先執行鏈接操做,ta和tb後執行鏈接操做。
from taleft join tbleft join tc on tb.column=tc.column on ta.column=tb.column
5,On子句過濾和Where子句過濾
On子句的執行順序先於where子句,在進行過濾時,On子句沒法過濾保留表,可是where子句可以過濾保留表;
對於inner join,因爲沒有保留表,因此,在On子句和where子句中進行過濾,結果是同樣的,可是,建議明確區分where子句和on子句的職能,on子句用於過濾鏈接的虛擬表,where用於對最終的結果集進行過濾。
例如:在On子句中,ta.column2=value1 不會過濾左表ta,若是不知足該條件,那麼右表相應的數據列設置爲NULL,left關鍵字保證左表中的全部數據行都返回;where子句(ta.column3=value2)過濾左表ta;
from taleft join tb on ta.column1=ta.column1 and ta.column2=value1where ta.column3=value2
二,建立測試代碼
View Code
三,left join(左外鏈接)
1,left join算法
把左表做爲保留表,返回左表的所有數據,對於右表中不匹配on子句條件數據行,返回NULL;
select * from dbo.ta a left join dbo.tb b on a.a=b.ca
2,使用常量過濾左表
在左外鏈接中,左表會返回全部數據,對於「and left_table.column=value」,是在第一個條件成立時,對返回的結果進行過濾,而左表數據會所有返回,當不知足條件時,設置右表數據爲NULL;
select * from dbo.ta a left join dbo.tb b on a.a=b.ca and a.a=1
3,使用where子句過濾左表
where子句是對結果集進行過濾的最後一個Filter
select * from dbo.ta a left join dbo.tb b on a.a=b.ca where a.a=1
4,使用where子句過濾右表
若是使用where子句對右表進行過濾,通常能夠轉換成inner join
select * from dbo.ta a left join dbo.tb b on a.a=b.ca where b.ca=1
四,right join(右外鏈接)
right join 算法是把右表做爲保留表,將右表中的數據所有顯示出來,對於左表中匹配不到的數據行,將其字段值設置爲NULL;
select * from dbo.ta a right join dbo.tb b on a.a=b.ca
五,inner join(內鏈接)
算法是:inner join沒有保留表,只返回知足 on 子句條件的數據行,對於不知足on子句條件的數據行,不返回
select * from dbo.ta a inner join dbo.tb b on a.a=b.ca
六,full join(全鏈接)
算法是:full join 把左表和右表都做爲保留表,若是左表和右表中的數據行知足On子句條件,那麼顯示數據行數據,若是不匹配,則相應的字段設置爲null。
select * from dbo.ta a full join dbo.tb b on a.a=b.ca
七,cross join(交叉鏈接)
算法是:cross join 是對左表和遊標進行笛卡爾乘積,cross join沒有on子句,笛卡爾乘積是將左表中的任意一行數據和右表中的全部數據行進行組合,cross join 將笛卡爾乘積後的結果直接顯示出來
select * from dbo.ta a cross join dbo.tb b
八,自鏈接用於累積求和
自鏈接是指一個table 和本身進行join,例如如下語句,表 dbo.ta和自身進行inner join,計算b字段的累積和。
select t1.a,sum(t2.b) as b from dbo.ta t1 inner join dbo.ta as t2 on t1.a>=t2.a group by t1.a
在實際的產品環境中,常常利用自聯結進行累加求和的計算,例若有以下一個Table:dbo.FinanceMonth,每月的產量是Quantity,計算一年內到該月份爲止的全部月份的Quantity的累積值。
View Code
使用自連接計算累積值
select a.MonthNum,sum(b.quantity) as TotalQuantity from dbo.FinanceMonth a inner join dbo.FinanceMonth b on a.MonthNum>=b.MonthNum group by a.MonthNum order by a.MonthNum
九,apply 用法
1,join和apply的區別
join 子句左表和右表的計算是不分前後的,從性能上考慮,最好把小表做爲左表,當右表數據量大的時候,會減小查詢的時間消耗。apply子句的左表和右表是區分前後順序的,apply是先計算左表,後計算右表,所以apply子句不是集合操做語句。若是右表是一個表值函數,apply會先取得左表中的一行記錄的值,做爲參數值傳遞給表值函數進行計算,左表中的一行記錄和「右表」進行笛卡爾乘積作爲最終結果。若是右表查詢出來的結果是空的,那麼右表字段設置爲null。
select * from dbo.ta a outer apply (select * from dbo.tb b where a.a=b.ca) p
從查詢結果上看,跟left join是相同的,可是在性能上,outer apply 比left join要差,由於TSQL 擅長集合操做,使用集合的思想編寫的代碼性能通常都很高,left join是集合操做語句,性能優於outer apply
雖然apply性能低,可是也有其用武之地,當須要按照順序進行鏈接時,apply是最好的選擇。
2,apply的兩種用法
outer apply 和cross apply的相同點是:
先計算左表,後計算右表;
對左表中的每一行記錄,右表都要「逐行」計算,相似於相關子查詢,實際上,TSQL對apply進行優化以後,並非逐行,而是逐N行;
outer apply 和cross apply的不一樣點是:
outer apply:將左表做爲保留表,若是右表沒有匹配行,那麼右表中的字段會設置爲null,相似於left join。
cross apply:沒有保留表,對於左表中的一行記錄,若是右表中沒有匹配行,那麼該行記錄不顯示在最終結果集中,相似於inner join。
select * from dbo.ta a cross apply (select * from dbo.tb b where a.a=b.ca) p
十,join語句的應用
1,使用cross join可以快速產生大量順序數字
cross join的結果集中數據行的數量是:左表數據行數和右表數據行數的乘積,因爲每一個table都有10個數字(從0到9),4個table進行cross join可以快速產生10的4次方,即10000個順序數字。
;with num as ( select n from(values(0),(1),(2),(3),(4),(5),(6),(7),(8),(9)) as p(n) ) select a.n+b.n*10+c.n*100+d.n*1000 as n --into dbo.num from num across join num b cross join num c cross join num d order by n
2,使用left join 查詢不存在於右表的數據行
若是左表中的數據不存於右表,那麼右表的字段是null,經過在 where 子句中設置filter,可以查詢出存在於左表,可是不存在於右表的數據行
select * from dbo.ta t1 left join dbo.tb t2 on t1.a=t2.ca where t2.ca is null;