爲何 SQL 查詢不是先執行 SELECT 語句？

時間 2020-06-18

標籤爲何 sql 查詢不是執行 select 語句欄目 SQL 简体版

原文原文鏈接

做者：Julia Evans 譯者：無明
連接：infoq.cn/article/Oke8hgilga3PTZ3gWvbg

不少 SQL 查詢都是以 SELECT 開始的。不過，最近我跟別人解釋什麼是窗口函數，我在網上搜索」是否能夠對窗口函數返回的結果進行過濾「這個問題，得出的結論是」窗口函數必須在 WHERE 和 GROUP BY 以後，因此不能」。數據庫

因而我又想到了另外一個問題：SQL 查詢的執行順序是怎樣的？segmentfault

好像這個問題應該很好回答，畢竟本身已經寫了上萬個 SQL 查詢了，有一些還很複雜。但事實是，我仍然很難確切地說出它的順序是怎樣的。app

SQL 查詢的執行順序

因而我研究了一下，發現順序大概是這樣的。SELECT 並非最早執行的，而是在第五個。函數

這張圖回答瞭如下這些問題

這張圖與 SQL 查詢的語義有關，讓你知道一個查詢會返回什麼，並回答瞭如下這些問題：性能

能夠在 GRROUP BY 以後使用 WHERE 嗎？（不行，WHERE 是在 GROUP BY 以前！）
能夠對窗口函數返回的結果進行過濾嗎？（不行，窗口函數是 SELECT 語句裏，而 SELECT 是在 WHERE 和 GROUP BY 以後）
能夠基於 GROUP BY 裏的東西進行 ORDER BY 嗎？（能夠，ORDER BY 基本上是在最後執行的，因此能夠基於任何東西進行 ORDER BY）
LIMIT 是在何時執行？（在最後！）

但數據庫引擎並不必定嚴格按照這個順序執行 SQL 查詢，由於爲了更快地執行查詢，它們會作出一些優化，這些問題會在之後的文章中解釋。優化

因此：spa

若是你想要知道一個查詢語句是否合法，或者想要知道一個查詢語句會返回什麼，能夠參考這張圖；
在涉及查詢性能或者與索引有關的東西時，這張圖就不適用了。

混合因素：列別名

有不少 SQL 實現容許你使用這樣的語法：3d

SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*)  
FROM table  
GROUP BY full_name

從這個語句來看，好像 GROUP BY 是在 SELECT 以後執行的，由於它引用了 SELECT 中的一個別名。但實際上不必定要這樣，數據庫引擎能夠把查詢重寫成這樣：code

SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*)
FROM table
GROUP BY CONCAT(first_name, ' ', last_name)

這樣 GROUP BY 仍然先執行。blog

數據庫引擎還會作一系列檢查，確保 SELECT 和 GROUP BY 中的東西是有效的，因此會在生成執行計劃以前對查詢作一次總體檢查。

數據庫可能不按照這個順序執行查詢（優化）

在實際當中，數據庫不必定會按照 JOIN、WHERE、GROUP BY 的順序來執行查詢，由於它們會進行一系列優化，把執行順序打亂，從而讓查詢執行得更快，只要不改變查詢結果。

這個查詢說明了爲何須要以不一樣的順序執行查詢：

SELECT * FROM owners LEFT JOIN cats ON owners.id = cats.owner
WHERE cats.name = 'mr darcy'

若是隻須要找出名字叫「mr darcy」的貓，那就不必對兩張表的全部數據執行左鏈接，在鏈接以前先進行過濾，這樣查詢會快得多，並且對於這個查詢來講，先執行過濾並不會改變查詢結果。

數據庫引擎還會作出其餘不少優化，按照不一樣的順序執行查詢，不過我並非這方面的專家，因此這裏就很少說了。

LINQ 的查詢以 FROM 開頭

LINQ（C#和 VB.NET 中的查詢語法）是按照 FROM…WHERE…SELECT 的順序來的。這裏有一個 LINQ 查詢例子：

var teenAgerStudent = from s in studentList 
where s.Age > 12 && s.Age < 20                      
select s;

pandas 中的查詢也基本上是這樣的，不過你不必定要按照這個順序。我一般會像下面這樣寫 pandas 代碼：

df = thing1.join(thing2)      # JOIN
df = df[df.created_at > 1000] # WHERE
df = df.groupby('something', num_yes = ('yes', 'sum')) # GROUP BY
df = df[df.num_yes > 2]       # HAVING, 對 GROUP BY 結果進行過濾
df = df[['num_yes', 'something1', 'something']] # SELECT, 選擇要顯示的列
df.sort_values('sometthing', ascending=True)[:30] # ORDER BY 和 LIMIT
df[:30]

這樣寫並非由於 pandas 規定了這些規則，而是按照 JOIN/WHERE/GROUP BY/HAVING 這樣的順序來寫代碼會更有意義些。不過我常常會先寫 WHERE 來改進性能，並且我想大多數數據庫引擎也會這麼作。

若有錯誤或其它問題，歡迎小夥伴留言評論、指正。若有幫助，歡迎點贊+轉發分享。

歡迎你們關注民工哥的公衆號：民工哥技術之路