做者:Julia Evans 譯者:無明
連接:infoq.cn/article/Oke8hgilga3PTZ3gWvbg
不少 SQL 查詢都是以 SELECT 開始的。不過,最近我跟別人解釋什麼是窗口函數,我在網上搜索」是否能夠對窗口函數返回的結果進行過濾「這個問題,得出的結論是」窗口函數必須在 WHERE 和 GROUP BY 以後,因此不能」。數據庫
因而我又想到了另外一個問題:SQL 查詢的執行順序是怎樣的?segmentfault
好像這個問題應該很好回答,畢竟本身已經寫了上萬個 SQL 查詢了,有一些還很複雜。但事實是,我仍然很難確切地說出它的順序是怎樣的。app
因而我研究了一下,發現順序大概是這樣的。SELECT 並非最早執行的,而是在第五個。函數
這張圖與 SQL 查詢的語義有關,讓你知道一個查詢會返回什麼,並回答瞭如下這些問題:性能
但數據庫引擎並不必定嚴格按照這個順序執行 SQL 查詢,由於爲了更快地執行查詢,它們會作出一些優化,這些問題會在之後的文章中解釋。優化
因此:spa
有不少 SQL 實現容許你使用這樣的語法:3d
SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*) FROM table GROUP BY full_name
從這個語句來看,好像 GROUP BY 是在 SELECT 以後執行的,由於它引用了 SELECT 中的一個別名。但實際上不必定要這樣,數據庫引擎能夠把查詢重寫成這樣:code
SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*) FROM table GROUP BY CONCAT(first_name, ' ', last_name)
這樣 GROUP BY 仍然先執行。blog
數據庫引擎還會作一系列檢查,確保 SELECT 和 GROUP BY 中的東西是有效的,因此會在生成執行計劃以前對查詢作一次總體檢查。
在實際當中,數據庫不必定會按照 JOIN、WHERE、GROUP BY 的順序來執行查詢,由於它們會進行一系列優化,把執行順序打亂,從而讓查詢執行得更快,只要不改變查詢結果。
這個查詢說明了爲何須要以不一樣的順序執行查詢:
SELECT * FROM owners LEFT JOIN cats ON owners.id = cats.owner WHERE cats.name = 'mr darcy'
若是隻須要找出名字叫「mr darcy」的貓,那就不必對兩張表的全部數據執行左鏈接,在鏈接以前先進行過濾,這樣查詢會快得多,並且對於這個查詢來講,先執行過濾並不會改變查詢結果。
數據庫引擎還會作出其餘不少優化,按照不一樣的順序執行查詢,不過我並非這方面的專家,因此這裏就很少說了。
LINQ(C#和 VB.NET 中的查詢語法)是按照 FROM…WHERE…SELECT 的順序來的。這裏有一個 LINQ 查詢例子:
var teenAgerStudent = from s in studentList where s.Age > 12 && s.Age < 20 select s;
pandas 中的查詢也基本上是這樣的,不過你不必定要按照這個順序。我一般會像下面這樣寫 pandas 代碼:
df = thing1.join(thing2) # JOIN df = df[df.created_at > 1000] # WHERE df = df.groupby('something', num_yes = ('yes', 'sum')) # GROUP BY df = df[df.num_yes > 2] # HAVING, 對 GROUP BY 結果進行過濾 df = df[['num_yes', 'something1', 'something']] # SELECT, 選擇要顯示的列 df.sort_values('sometthing', ascending=True)[:30] # ORDER BY 和 LIMIT df[:30]
這樣寫並非由於 pandas 規定了這些規則,而是按照 JOIN/WHERE/GROUP BY/HAVING 這樣的順序來寫代碼會更有意義些。不過我常常會先寫 WHERE 來改進性能,並且我想大多數數據庫引擎也會這麼作。
若有錯誤或其它問題,歡迎小夥伴留言評論、指正。若有幫助,歡迎點贊+轉發分享。
歡迎你們關注民工哥的公衆號:民工哥技術之路