SQL優化----百萬數據查詢優化

百萬數據查詢優化

1.合理使用索引數據庫

  索引是數據庫中重要的數據結構,它的根本目的就是爲了提升查詢效率。如今大多數的數據庫產品都採用IBM最早提出的ISAM索引結構。索引的使用要恰到好處,其使用原則以下:服務器

  在常常進行鏈接,可是沒有指定爲外鍵的列上創建索引,而不常常鏈接的字段則由優化器自動生成索引。數據結構

  在頻繁進行排序或分組(即進行group byorder by操做)的列上創建索引。併發

  在條件表達式中常常用到的不一樣值較多的列上創建檢索,在不一樣值少的列上不要創建索引。好比在僱員表的性別列上只有兩個不一樣值,所以就無必要創建索引。若是創建索引不但不會提升查詢效率,反而會嚴重下降更新速度。函數

  若是待排序的列有多個,能夠在這些列上創建複合索引(compound index)。工具

  使用系統工具。如Informix數據庫有一個tbcheck工具,能夠在可疑的索引上進行檢查。在一些數據庫服務器上,索引可能失效或者由於頻繁操做而使得讀取效率下降,若是一個使用索引的查詢不明不白地慢下來,能夠試着用tbcheck工具檢查索引的完整性,必要時進行修復。另外,當數據庫表更新大量數據後,刪除並重建索引能夠提升查詢速度。post

  2.避免或簡化排序性能

  應當簡化或避免對大型表進行重複的排序。當可以利用索引自動以適當的次序產生輸出時,優化器就避免了排序的步驟。如下是一些影響因素:大數據

  索引中不包括一個或幾個待排序的列;優化

  ●group byorder by子句中列的次序與索引的次序不同;

  排序的列來自不一樣的表。

  爲了不沒必要要的排序,就要正確地增建索引,合理地合併數據庫表(儘管有時可能影響表的規範化,但相對於效率的提升是值得的)。若是排序不可避免,那麼應當試圖簡化它,如縮小排序的列的範圍等。

  3.消除對大型錶行數據的順序存取

  在嵌套查詢中,對錶的順序存取對查詢效率可能產生致命的影響。好比採用順序存取策略,一個嵌套3層的查詢,若是每層都查詢1000行,那麼這個查詢就要查詢10億行數據。    A避免這種狀況的主要方法就是對鏈接的列進行索引。

  B) 還可使用並集來避免順序存取(將or改爲union)。儘管在全部的檢查列上都有索引,但某些形式的where子句強迫優化器使用順序存取。下面的查詢將強迫對orders表執行順序操做:

  SELECT * FROM orders WHERE (customer_num=104 AND order_num>1001) OR order_num=1008

  雖然在customer_numorder_num上建有索引,可是在上面的語句中優化器仍是使用順序存取路徑掃描整個表。由於這個語句要檢索的是分離的行的集合,因此應該改成以下語句:

  SELECT * FROM orders WHERE customer_num=104 AND order_num>1001

  UNION

  SELECT * FROM orders WHERE order_num=1008

  這樣就能利用索引路徑處理查詢。

   4.避免相關子查詢

  一個列的標籤同時在主查詢和where子句中的查詢中出現,那麼極可能當主查詢中的列值改變以後,子查詢必須從新查詢一次。查詢嵌套層次越多,效率越低,所以應當儘可能避免子查詢。若是子查詢不可避免,那麼要在子查詢中過濾掉儘量多的行。

  5.避免困難的正規表達式

  MATCHESLIKE關鍵字支持通配符匹配,技術上叫正規表達式。但這種匹配特別耗費時間。例如:SELECT * FROM customer WHERE zipcode LIKE 「98_ _ _」

  即便在zipcode字段上創建了索引,在這種狀況下也仍是採用順序掃描的方式。若是把語句改成SELECT * FROM customer WHERE zipcode >「98000」,在執行查詢時就會利用索引來查詢,顯然會大大提升速度。

  另外,還要避免非開始的子串。例如語句:SELECT * FROM customer WHERE zipcode[23] >「80」,在where子句中採用了非開始子串,於是這個語句也不會使用索引。

  6.使用臨時表加速查詢

  把表的一個子集進行排序並建立臨時表,有時能加速查詢。有助於避免多重排序操做,並且在其餘方面還能簡化優化器的工做。例如:

  SELECT cust.namercvbles.balance……other columns

  FROM custrcvbles

  WHERE cust.customer_id = rcvlbes.customer_id

  AND rcvblls.balance>0

  AND cust.postcode>「98000」

  ORDER BY cust.name

  若是這個查詢要被執行屢次而不止一次,能夠把全部未付款的客戶找出來放在一個臨時文件中,並按客戶的名字進行排序:

  SELECT cust.namercvbles.balance……other columns

  FROM custrcvbles

  WHERE cust.customer_id = rcvlbes.customer_id

  AND rcvblls.balance>0

  ORDER BY cust.name

  INTO TEMP cust_with_balance

  而後如下面的方式在臨時表中查詢:

  SELECT * FROM cust_with_balance

  WHERE postcode>「98000」

  臨時表中的行要比主表中的行少,並且物理順序就是所要求的順序,減小了磁盤I/O,因此查詢工做量能夠獲得大幅減小。

  注意:臨時表建立後不會反映主表的修改。在主表中數據頻繁修改的狀況下,注意不要丟失數據。 

 

  小 結

  20%的代碼用去了80%的時間,這是程序設計中的一個着名定律,在數據庫應用程序中也一樣如此。咱們的優化要抓住關鍵問題,對於數據庫應用程序來講,重點在於SQL的執行效率。查詢優化的重點環節是使得數據庫服務器少從磁盤中讀數據以及順序讀頁而不是非順序讀頁。

第二部分(如何讓引擎充分使用索引)

l  百萬數據查詢優化技巧三十則

1.創建索引 對查詢進行優化,應儘可能避免全表掃描,首先應考慮在 where 及 order by 涉及的列上創建索引。 

 

2.應儘可能避免在 where 子句中對字段進行 null 值判斷,不然將致使引擎放棄使用索引而進行全表掃描,如: 

select id from t where num is null 

能夠在num上設置默認值0,確保表中num列沒有null,而後這樣查詢: 

select id from t where num=0 

 

3.應儘可能避免在 where 子句中使用!=<>操做符,不然將引擎放棄使用索引而進行全表掃描。 

 

4.應儘可能避免在 where 子句中使用 or 來鏈接條件,可以使用union,不然將致使引擎放棄使用索引而進行全表掃描,如: 

select id from t where num=10 or num=20 

能夠這樣查詢: 

select id from t where num=10 

union all 

select id from t where num=20 

 

5.in 和 not in 也要慎用,不然會致使全表掃描,如: 

select id from t where num in(1,2,3) 

對於連續的數值,能用 between 就不要用 in 了: 

select id from t where num between 1 and 3 

 

6.下面模糊查詢也將致使全表掃描: 

select id from t where name like '%abc%' 

若要提升效率,能夠考慮全文檢索。 

 

7.若是在 where 子句中使用參數,也會致使全表掃描

由於SQL只有在運行時纔會解析局部變量,但優化程序不能將訪問計劃的選擇推遲到運行時;它必須在編譯時進行選擇。然而,若是在編譯時創建訪問計劃,變量的值仍是未知的,於是沒法做爲索引選擇的輸入項。以下面語句將進行全表掃描: 

select id from t where num=@num 

能夠改成強制查詢使用索引: 

select id from t with(index(索引名)) where num=@num 

 

8.應儘可能避免在 where 子句中對字段進行表達式操做,這將致使引擎放棄使用索引而進行全表掃描。如: 

select id from t where num/2=100 

應改成

select id from t where num=100*2 

 

9.應儘可能避免在where子句中對字段進行函數(內置函數)操做,

這將致使引擎放棄使用索引而進行全表掃描。如: 

select id from t where substring(name,1,3)='abc'--nameabc開頭的id 

select id from t where datediff(day,createdate,'2005-11-30')=0--2005-11-30’生成的id 

應改成

select id from t where name like 'abc%' 

select id from t where createdate>='2005-11-30' and createdate<'2005-12-1' 

 

10.不要在 where 子句中的「=」左邊進行函數、算術運算或其餘表達式運算,不然系統將可能沒法正確使用索引。 

 

11.在使用索引字段做爲條件時,若是該索引是複合索引,那麼必須使用到該索引中的第一個字段做爲條件時才能保證系統使用該索引,不然該索引將不會被使用,而且應儘量的讓字段順序與索引順序相一致。 

 

12.不要寫一些沒有意義的查詢,如須要生成一個空表結構: 

select col1,col2 into #t from t where 1=0 

這類代碼不會返回任何結果集,可是會消耗系統資源的,應改爲這樣: 

create table #t(...) 

 

13.不少時候用 exists 代替 in 是一個好的選擇(緣由:請參考個人博客): 

select num from a where num in(select num from b) 

用下面的語句替換: 

select num from a where exists(select 1 from b where num=a.num) 

 

14.並非全部索引對查詢都有效,SQL是根據表中數據來進行查詢優化的,當索引列有大量數據重複時,SQL查詢可能不會去利用索引(除非是位圖索引),如一表中有字段sexmalefemale幾乎各一半,那麼即便在sex上建了索引也對查詢效率起不了做用。 

 

15.索引並非越多越好,索引當然能夠提升相應的 select 的效率,但同時也下降了 insert 及 update 的效率,由於 insert 或 update 時有可能會重建索引,因此怎樣建索引須要慎重考慮,視具體狀況而定。一個表的索引數最好不要超過6,若太多則應考慮一些不常使用到的列上建的索引是否有必要。 

 

16.應儘量的避免更新 clustered 索引數據列,由於 clustered 索引數據列的順序就是表記錄的物理存儲順序,一旦該列值改變將致使整個表記錄的順序的調整,會耗費至關大的資源。若應用系統須要頻繁更新 clustered 索引數據列,那麼須要考慮是否應將該索引建爲 clustered 索引。 

 

17.儘可能使用數字型字段,若只含數值信息的字段儘可能不要設計爲字符型,這會下降查詢和鏈接的性能,並會增長存儲開銷。這是由於引擎在處理查詢和鏈接時會逐個比較字符串中每個字符,而對於數字型而言只須要比較一次就夠了。 

 

18.儘量的使用 varchar/nvarchar 代替 char/nchar,最好用varchar2(自變長度) ,由於首先變長字段存儲空間小,能夠節省存儲空間,其次對於查詢來講,在一個相對較小的字段內搜索效率顯然要高些。 

 

19.任何地方都不要使用 select * from t ,用具體的字段列表代替「*,不要返回用不到的任何字段。 

 

20.儘可能使用表變量來代替臨時表(通常用在存儲過程當中)。若是表變量包含大量數據,請注意索引很是有限(只有主鍵索引)。 

 

21.避免頻繁建立和刪除臨時表,以減小系統表資源的消耗。 

 

22.臨時表並非不可以使用,適當地使用它們可使某些例程更有效,例如,當須要重複引用大型表或經常使用表中的某個數據集時。可是,對於一次性事件,最好使用導出表。 

 

23.在新建臨時表時,若是一次性插入數據量很大,那麼可使用 select into A select。。。 代替 create table,避免形成大量 log ,以提升速度;若是數據量不大,爲了緩和系統表的資源,應先create table,而後insert。 

 

24.若是使用到了臨時表,在存儲過程的最後務必將全部的臨時表顯式刪除,先 truncate table ,而後 drop table ,這樣能夠避免系統表的較長時間鎖定。 

 

25.儘可能避免使用遊標,由於遊標的效率較差,若是遊標操做的數據超過1萬行,那麼就應該考慮改寫。 

 

26.使用基於遊標的方法或臨時表方法以前,應先尋找基於集的解決方案來解決問題,基於集的方法一般更有效。 

 

27.與臨時表同樣,遊標並非不可以使用。對小型數據集使用 FAST_FORWARD 遊標一般要優於其餘逐行處理方法,尤爲是在必須引用幾個表才能得到所需的數據時。在結果集中包括「合計」的例程一般要比使用遊標執行的速度快。若是開發時間容許,基於遊標的方法和基於集的方法均可以嘗試一下,看哪種方法的效果更好。 

 

28.在全部的存儲過程和觸發器的開始處設置 SET NOCOUNT ON ,在結束時設置 SET NOCOUNT OFF 。無需在執行存儲過程和觸發器的每一個語句後向客戶端發送 DONE_IN_PROC 消息。 

 

29.儘可能避免大事務操做,提升系統併發能力。 

 

30.儘可能避免向客戶端返回大數據量,若數據量過大,應該考慮相應需求是否合理。 

相關文章
相關標籤/搜索