SQL Server 執行計劃利用統計信息對數據行的預估原理二（爲何複合索引列順序會影響到執行計劃對數據行的預估）

時間 2019-11-06

標籤 sql server 執行計劃利用統計信息數據行的預估原理爲何複合索引順序影響欄目 SQL 简体版

原文原文鏈接

本文出處：http://www.cnblogs.com/wy123/p/6008477.html html

　　關於統計信息對數據行數作預估，以前寫過對非相關列（單獨或者單獨的索引列）進行預估時候的算法，參考這裏。
　　今天來寫一下統計信息對於複合索引在預估時候的計算方法和潛在問題。
　　本文原形來自因而個實際業務問題，某SQL在利用一個符合索引作查詢的時候，發現始終會出現預估偏差較大的狀況，
　　而改變複合索引的列順序，這個預估行數的偏差會發生變化，
　　也就是說，Create index idx_index1 ON TableName(col1,col2)與Create index idx_index2 on TableName(col2,col1)
　　用徹底同樣的的查詢條件作查詢，兩個索引的執行計劃對其預估的行數是不同的
　　究其緣由在哪裏呢？算法

　　先造一個測試環境：測試

CREATE TABLE TestStatistics
(
    COL1 INT IDENTITY(1,1)  ,
    COL2 INT                ,
    COL3 DATETIME           ,
    COL4 VARCHAR(50)            
)
GO

INSERT INTO TestStatistics VALUES (RAND()*10,CAST(GETDATE()-RAND()*300 AS date),NEWID())
GO 1000000

問題重現spa

首先看一個很是有意思的問題，
在同一張表上，
先這麼建一個索引：CREATE INDEX IDX_COL2_COL3 ON TestStatistics(COL2,COL3)
執行一個查詢，預估爲4127.86行
而後DROP掉上面的索引，繼續建立一個索引：CREATE INDEX IDX_COL3_COL2 ON TestStatistics(COL3,COL2)
注意COL2和COL3的順序不一致
繼續執行上面的查詢（查詢條件不變，數據不變，僅僅是索引列順序發生了變化），這一次預估爲2414.91行3d

查詢條件同樣，數據也同樣，爲何改變複合索引列順序會影響到執行計劃對數據行的預估呢？code

首先來看第一個索引時候的預估算法：htm

　　這個查詢他預估爲4127.86行，以下圖blog

　　提及來預估，就離不開統計信息，首先來看IDX_COL2_COL3這個索引的統計信息，
　　咱們知道，對於複合索引，統計信息中只有前導列的統計數據，也就是說IDX_COL3_COL2這個索引只有COL2這個列的統計信息，以下截圖
　　對於COL2=2的統計信息，統計爲100336行，咱們記住這個數字索引

　　統計信息的另一個特色就是在會在查詢列（非索引列）上自動建立統計信息，以下截圖
　　查詢執行過程當中，自動建立了一個名字爲：_WA_Sys_00000003_24E8431A的統計信息
　　這個統計信息就是對COL3列的統計，能夠發如今大於等於2012-10-20以後的統計行數get

　　在SQL Server 2012中，對數據行的預估計算方式是各個字段的選擇性的乘積，
　　假如P_n表明不一樣字段的密度，那麼預估行數的計算方法就是: 預估行數=p₀*p₁*p₂*p₃……*RowCount
　　能夠利用這個算法，計算目前數據下，預估出來的結果：4217.86，跟執行計劃預估是一致的，很是完美！

　　當刪除了IDX_COL2_COL3重建創建順序爲COL3+COL2的索引的時候，預估以下

　　與上面一樣的查詢條件，預估爲2414.91行

　　依據上面的分析步驟，首先來分析索引列上的統計信息，以下截圖爲大於等於2016-10-20以後的預估行數

同理，本次查詢也會自動創建COL2列上的統計信息（IDX_COL2_COL3索引被刪除），觀察這個統計信息對COL2=2的預估爲83711.36行

　　　一樣咱們利用上述公式，來計算預估的行數：2414.9035行，也很是完美地吻合和執行計劃預估的結果

　　至此，應該很清楚一開始的問題了，就是爲何複合索引列順序不一致，在查詢的時候致使預估也不一致的緣由。
　　最根本的緣由有就是：
　　符合索引上只有前導列的統計信息，查詢引擎會根據須要自動建立非前導列的統計信息，
　　可是，很是關鍵一點，若是細心的話，你會發現查詢引擎自動建立的統計信息的取樣行數都不是100%取樣的，這一點很是關鍵
　　正是由於非前導列取樣有必定的偏差，致使在預估算法的時候，也即預估行數=p₀*p₁*p₂*p₃……*RowCount的時候，密度值是不同的
　　也即在建立IDX_COL2_COL3的時候，統計出來的COL2密度爲P_{1_1}，COL3密度爲P_{2_1}，
　　建立IDX_COL3_COL2的時候，統計出來的COL2密度爲P_{1_2}，COL3密度爲P_{2_2}，由於P_{1_1}<>P_{1_2},P_{2_1}<>P_{2_2}
　　所以，計算出的結果就是P_{1_1}*P_{2_1}<>P_{2_1}*P_{2_2，}原理很簡單，但願看官能明白。