SQL 查詢語句老是先執行 SELECT？大家都錯了

時間 2019-11-26

標籤 sql 查詢語句老是執行 select 大家錯了欄目 SQL 简体版

原文原文鏈接

不少 SQL 查詢都是以 SELECT 開始的。不過，最近我跟別人解釋什麼是窗口函數，我在網上搜索」是否能夠對窗口函數返回的結果進行過濾「這個問題，得出的結論是」窗口函數必須在 WHERE 和 GROUP BY 以後，因此不能」。因而我又想到了另外一個問題：SQL 查詢的執行順序是怎樣的？bash

好像這個問題應該很好回答，畢竟本身已經寫了上萬個 SQL 查詢了，有一些還很複雜。但事實是，我仍然很難確切地說出它的順序是怎樣的。函數

SQL 查詢的執行順序

因而我研究了一下，發現順序大概是這樣的。SELECT 並非最早執行的，而是在第五個。性能

這張圖回答瞭如下這些問題

這張圖與 SQL 查詢的語義有關，讓你知道一個查詢會返回什麼，並回答瞭如下這些問題：優化

能夠在 GRROUP BY 以後使用 WHERE 嗎？（不行，WHERE 是在 GROUP BY 以後！）ui
能夠對窗口函數返回的結果進行過濾嗎？（不行，窗口函數是 SELECT 語句裏，而 SELECT 是在 WHERE 和 GROUP BY 以後）spa
能夠基於 GROUP BY 裏的東西進行 ORDER BY 嗎？（能夠，ORDER BY 基本上是在最後執行的，因此能夠基於任何東西進行 ORDER BY）code
LIMIT 是在何時執行？（在最後！）cdn

但數據庫引擎並不必定嚴格按照這個順序執行 SQL 查詢，由於爲了更快地執行查詢，它們會作出一些優化，這些問題會在之後的文章中解釋。blog

因此：

若是你想要知道一個查詢語句是否合法，或者想要知道一個查詢語句會返回什麼，能夠參考這張圖；
在涉及查詢性能或者與索引有關的東西時，這張圖就不適用了。

混合因素：列別名

有不少 SQL 實現容許你使用這樣的語法：

SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*)FROM tableGROUP BY full_name複製代碼

從這個語句來看，好像 GROUP BY 是在 SELECT 以後執行的，由於它引用了 SELECT 中的一個別名。但實際上不必定要這樣，數據庫引擎能夠把查詢重寫成這樣：

SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*)FROM tableGROUP BY CONCAT(first_name, ' ', last_name)複製代碼

這樣 GROUP BY 仍然先執行。

數據庫引擎還會作一系列檢查，確保 SELECT 和 GROUP BY 中的東西是有效的，因此會在生成執行計劃以前對查詢作一次總體檢查。

數據庫可能不按照這個順序執行查詢（優化）

在實際當中，數據庫不必定會按照 JOIN、WHERE、GROUP BY 的順序來執行查詢，由於它們會進行一系列優化，把執行順序打亂，從而讓查詢執行得更快，只要不改變查詢結果。

這個查詢說明了爲何須要以不一樣的順序執行查詢：

SELECT * FROMowners LEFT JOIN cats ON owners.id = cats.ownerWHERE cats.name = 'mr darcy'複製代碼

若是隻須要找出名字叫「mr darcy」的貓，那就不必對兩張表的全部數據執行左鏈接，在鏈接以前先進行過濾，這樣查詢會快得多，並且對於這個查詢來講，先執行過濾並不會改變查詢結果。

數據庫引擎還會作出其餘不少優化，按照不一樣的順序執行查詢，不過我並非這方面的專家，因此這裏就很少說了。

LINQ 的查詢以 FROM 開頭

LINQ（C#和 VB.NET 中的查詢語法）是按照 FROM…WHERE…SELECT 的順序來的。這裏有一個 LINQ 查詢例子：

var teenAgerStudent = from s in studentList                      where s.Age > 12 && s.Age < 20                      select s;複製代碼

pandas 中的查詢也基本上是這樣的，不過你不必定要按照這個順序。我一般會像下面這樣寫 pandas 代碼：

df = thing1.join(thing2)      # JOINdf = df[df.created_at > 1000] # WHEREdf = df.groupby('something', num_yes = ('yes', 'sum')) # GROUP BYdf = df[df.num_yes > 2] # HAVING, 對 GROUP BY 結果進行過濾df = df[['num_yes', 'something1', 'something']] # SELECT, 選擇要顯示的列df.sort_values('sometthing', ascending=True)[:30] # ORDER BY 和 LIMITdf[:30]複製代碼

這樣寫並非由於 pandas 規定了這些規則，而是按照 JOIN/WHERE/GROUP BY/HAVING 這樣的順序來寫代碼會更有意義些。不過我常常會先寫 WHERE 來改進性能，並且我想大多數數據庫引擎也會這麼作。

R 語言裏的 dplyr 也容許開發人員使用不一樣的語法編寫 SQL 查詢語句，用來查詢 Postgre、MySQL 和 SQLite。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。