想要設計出好的索引,首先必須瞭解SQL語句在數據庫服務器中的處理過程,本文介紹數據庫索引設計與優化中幾個對索引優化很是重要的概念。mysql
謂詞就是條件表達式。 SQL語句的where子句由一個或者多個謂詞組成。sql
WHERE SEX = 'M'
AND
(WHIGHT > 90
OR
HEIGHT > 190)
複製代碼
上面這個WHERE子句有三個簡單謂詞:數據庫
也能夠認爲是兩個組合謂詞:bash
關係型數據庫的一大優點就是,用戶無須關係數據的訪問方式。其訪問路徑是由DBMS的一個組件,即優化器來肯定的。優化器是SQL處理過程的核心。服務器
這裏以mysql爲例展現一個簡單的mysql服務器邏輯結構性能
在SQL語句可以被真正執行以前,優化器必須首先肯定如何訪問數據。好比mysql會解析查詢並建立解析樹,而後對其進行各類優化,包括決定選擇合適的索引,決定表的讀取順序。優化
而謂詞表達式是索引設計的主要入手點。若是一個索引可以知足SELECT查詢語句的全部謂詞表達式,那麼優化器就頗有可能創建起一個高效的訪問路徑。spa
當索引時以B+樹的形式組織,若是有謂詞表達式WHERE A > 100 AND A < 110
,那麼查詢到的葉子節點的範圍會最終爲下圖:設計
圖的左邊是索引的一個窄片斷,咱們稱這個片斷爲索引片。這個片斷會被順序掃描,上面索引行的值在100到110之間,相應的錶行將經過同步讀從表(也可能在緩衝池)中讀取。3d
因此訪問路徑的成本很大程度上取決於這個索引片的厚度,也就是謂詞表達式肯定的值域範圍。索引片越厚,須要掃描的索引頁就越多,須要處理的索引記錄也就越多,但最大的開銷仍是來自於增長的對錶的同步讀操做,每次表頁讀取的I/O操做可能須要10ms。相應的,索引片比較窄,就會減小對錶的同步讀取。
並非全部的索引列都可以定義索引片的大小。有時候,列可能既存在於WHERE子句中,也存在於索引中,但這個列卻不能參與索引片的定義,舉個例子。 表上有一聯合索引(A,B,C,D),有以下sql語句:
WHERE A = :A
AND
B > :B
AND
C = :C
複製代碼
咱們須要肯定WHERE子句中的謂詞是否可以肯定索引片大小:
總結:
上述WHERE子句有兩個匹配列,列A和列B,他們定義了掃描的索引片。除此以外還有一個列C做爲過濾列。因此只有當一行同時知足這三個謂詞時纔會訪問表中的數據。
若是列B的謂詞表達式是等值謂詞,那麼這三個列均可以做爲匹配列。
若是取消列A的謂詞表達式,那麼索引片斷就是整個索引的大小,列B和列C都僅僅只能用來過濾。
過濾因子描述的謂詞的選擇性,即表中知足謂詞條件的記錄行數所佔的比例,它主要依賴於列值的分佈狀況。
計算過濾因子的公式爲:
結果集數量/錶行的數量
好比咱們的一張用戶表裏有SEX這個字段,當加入一個女性用戶,SEX=‘F’的過濾因子就會變大。
若是男性在表中佔70%,那麼SEX='M'的過濾因子就是70%,SEX='F'的過濾因子爲30%,SEX列的最差狀況下過濾因子爲70%,平均過濾因子爲50%。
若是男女比例一比一,那麼列SEX最差狀況下的過濾因子和平均過濾因子都是50%。
咱們在評估一個索引是否合適的時候,最差狀況下的過濾因子比平均過濾因子更重要,由於最差狀況與最差輸入相關,即在該輸入條件下,基於特定索引的查詢將消耗最長的時間。
那咱們如何來計算三組合謂詞表達式的過濾因子呢?
若是組成謂詞的列之間非相關,那麼組合謂詞的過濾因子能夠從單個謂詞的過濾因子推導出來。
非相關的意思是兩個謂詞的值互不影響,例如咱們有一張user表,裏面有"province"和"city"兩個字段,那這就是兩個相關的謂詞,由於城市的值必須是他所在的省下的城市。而CITY和BD(生日)就是不相關的謂詞。
好比組合謂詞 CITY = :CITY AND BD = :BD
的過濾因子等於謂詞 CITY = :CITY
和謂詞 BD = :BD
的過濾因子的乘積。
若是列CITY有2000個不一樣的值,列BD有2700個不一樣的值,那麼組合謂詞的過濾因子就是:1/2000*1/2700
。那麼列組合[CITY,BD]總共有5400000個不一樣的值。
而對於有相關性的列,值會比這小不少。
咱們在設計索引結構的時候,須要將SQL語句中的組合謂詞看作一個總體來評估過濾因子。
很顯然,須要掃描的索引片的大小對訪問路徑的性能影響相當重要。過濾因子越小,篩選出來的索引片的就越小,那就意味着訪問表的次數越少。
假設表有聯合索引 (MAKE, MODEL, YEAR)
對於sql語句:
SELECT PRICE, COLOR, DEALERNO
FROM CAR
WHERE MAKE = :MAKE
AND
MODEL = :MODEL
ORDER BY PRICE
複製代碼
MAKE 和 MODEL都是匹配列。若是組合謂詞的過濾因子是0.1%,那麼所須要訪問的索引片大小將爲整個索引的0.1%。
而對於下面這個sql語句,這個索引就不大好了:
SELECT PRICE, COLOR, DEALERNO
FROM AUTO
WHERE MAKE = :MAKE
AND
YEAR = :YEAR
複製代碼
因爲聯合索引的最左匹配原則,匹配列只有MAKE。過濾因子爲1%,索引片比較大。
sql語句:
SELECT LNAME, FNAME, CNO
FROM CUST
WHERE SEX='M'
AND
(WEIGHT > 90
OR
HEIGHT > 190)
ORDER BY LNAME, FNAME
複製代碼
這個SQL語句查找身材高大有必定要求的男性,此時匹配謂詞只有一個SEX,過濾因子正常狀況下爲50%,若是表有100萬行記錄,那麼索引片就有50萬行,這就是至關厚的索引片了。
思考一下爲如下兩個SQL語句設計最佳的索引
SELECT LNAME, FNAME, CNO
FROM CUST
WHERE SEX = 'M'
AND
HEIGHT > 190
ORDER BY LNAME, FNAME
複製代碼
SELECT LNAME, FNAME, CNO
FROM CUST
WHERE SEX = 'M'
AND
(WHIGHT > 90
OR
HEIGHT > 190)
ORDER BY LNAME, FNAME
複製代碼