SQL 大數據查詢如何進行優化? SQL_where條件的優化

在關係數據庫中,除在數據庫的物理設計、關係規範化等方面進行優化外,一個簡單直接有效的方法是對SQL語句進行調整,減小計算量和內存需求,提升響應速度。 html

總結以下幾項:數據庫

一、where條件過濾數據多的放在前面,減小產生的臨時表的數據量併發

二、在須要當條件的列上加索引,避免全表掃描,首先應考慮在 where 及 order by,不要判斷=null或!=,<>,where 子句中使用 or ,in 和 not in 也要慎用,都會致使引擎放棄使用索引而進行全表掃描,索引也能夠按期維護任務裏從新創建索引(表上頻繁發生update,delete操做時須要重建)函數

三、like查詢也將致使全表掃描:select id from t where name like '%abc%',若要提升效率,能夠考慮全文檢索。post

四、子句中使用參數,也會致使全表掃描。由於SQL只有在運行時纔會解析局部變量,能夠改成強制查詢使用索引:select id from t with(index(索引名)) where num=@num性能

五、儘可能避免在 where 子句中對字段進行表達式操做和函數操做,這將致使引擎放棄使用索引而進行全表掃描六、索引列有大量數據重複時,SQL查詢可能不會去利用索引,索引並非越多越好,索引當然能夠提升相應的 select 的效率,但同時也下降了 insert 及 update 的效率,由於 insert 或 update 時有可能會重建索引大數據

六、不要更新彙集索引數據列,索引數據列的順序就是表記錄的物理存儲順序,一旦該列值改變將致使整個表記錄的順序的調整,會耗費至關大的資源優化

七、避免頻繁建立和刪除臨時表url

八、儘可能避免向客戶端返回大數據量,若數據量過大,應該考慮相應需求是否合理。設計

SQL_where條件的優化

 

原則,多數數據庫都是從 左到右的順序處理條件,把能過濾更多數據的條件放在前面,過濾少的條件放後面

SQL1: select * from employee

            where salary >1000     --條件1,過濾的數據較少

                 and   dept_id='01'    --條件2,過濾的數據比條件1多

上面的SQL就不符合咱們的原則了,應該把過濾數據更多的條件放在前面,所以改成下面這樣更好

             select * from employee

              where   dept_id='01'     --過濾更多數據的條件放在前面

                  and   salary > 1000

在關係數據庫中,除在數據庫的物理設計、關係規範化等方面進行優化外,一個簡單直接有效的方法是對SQL語句進行調整,減小計算量和內存需求,提升響應速度。 
  a.對同一表格進行多個選擇運算 
  選擇條件的排列順序對性能有較大影響,由於不只影響索引的選取,並且關係到臨時表的大小。現如下面的查詢語句爲例進行說明: 
  select * from customer 
  where city=’beijing’ and fname=’li’ 
  若表中存在100萬條記錄,其中city=’beijing’的10萬,fname=’li’的爲2萬,其中city=’beijing’的 爲2千,在SQL Server中,查詢條件的選取是從左到右使用的,於是,執行第一個條件結果返回一個10萬行的臨時表,而後再從中進行選擇,從而獲得 最終結果。若是把選擇條件改成where fname=’li’ and city=’beijing’,則先獲得一個2萬行的臨時表,再獲得一樣的結 果。因而可知,選擇條件的選取極大的影響着查詢語句的計算量,因此,要提升查詢的響應速度,能夠將較嚴格的條件寫在前面,較弱的條件放在後面。

集合30條

1.對查詢進行優化,應儘可能避免全表掃描,首先應考慮在 where 及 order by 

涉及的列上創建索  
2.應儘可能避免在 where 子句中對字段進行 null 值判斷,不然將致使引擎放棄使用索引而進行全表掃描,如:引。
select id from t where num is null
能夠在num上設置默認值0,確保表中num列沒有null值,而後這樣查詢:
select id from t where num=0
3.應儘可能避免在 where 
子句中使用!=或<>操做符,不然將引擎放棄使用索引而進行全表掃描。
4.應儘可能避免在 where 子句中使用 or 
來鏈接條件,不然將致使引擎放棄使用索引而進行全表掃描,如:
select id from t where num=10 or num=20
能夠這樣查詢:
select id from t where num=10
union all
select id from t where num=20
5.in 和 not in 也要慎用,不然會致使全表掃描,如:
select id from t where num in(1,2,3)
對於連續的數值,能用 between 就不要用 in 了:
select id from t where num between 1 and 3
6.下面的查詢也將致使全表掃描:
select id from t where name like '%abc%'
若要提升效率,能夠考慮全文檢索。
7.若是在 where 
子句中使用參數,也會致使全表掃描。由於SQL只有在運行時纔會解析局部變量,但優化程序不能將訪問計劃的選擇推遲到運行時;它必須在編譯時進行選擇。然而,若是在編譯時創建訪問計劃,變量的值仍是未知的,於是沒法做爲索引選擇的輸入項。以下面語句將進行全表掃描:
select id from t where num=@num
能夠改成強制查詢使用索引:
select id from t with(index(索引名)) where num=@num
8.應儘可能避免在 where 子句中對字段進行表達式操做,這將致使引擎放棄使用索引而進行全表掃描。如:
select id from t where num/2=100
應改成:
select id from t where num=100*2
9.應儘可能避免在where子句中對字段進行函數操做,這將致使引擎放棄使用索引而進行全表掃描。如:
select id from t where 
substring(name,1,3)='abc'--name以abc開頭的id
select id from t where 
datediff(day,createdate,'2005-11-30')=0--‘2005-11-30’生成的id
應改成:
select id from t where name like 'abc%'
select id from t where createdate>='2005-11-30' 
and createdate<'2005-12-1'
10.不要在 where 
子句中的「=」左邊進行函數、算術運算或其餘表達式運算,不然系統將可能沒法正確使用索引。
11.在使用索引字段做爲條件時,若是該索引是複合索引,那麼必須使用到該索引中的第一個字段做爲條件時才能保證系統使用該索引,不然該索引將不會被使用,而且應儘量的讓字段順序與索引順序相一致。
12.不要寫一些沒有意義的查詢,如須要生成一個空表結構:
select col1,col2 into #t from t where 1=0
這類代碼不會返回任何結果集,可是會消耗系統資源的,應改爲這樣:
create table #t(...)
13.不少時候用 exists 代替 in 是一個好的選擇:
select num from a where num in(select num from b)
用下面的語句替換:
select num from a where exists(select 1 from b where 
num=a.num)
14.並非全部索引對查詢都有效,SQL是根據表中數據來進行查詢優化的,當索引列有大量數據重複時,SQL查詢可能不會去利用索引,如一表中有字段sex,male、female幾乎各一半,那麼即便在sex上建了索引也對查詢效率起不了做用。
15.索引並非越多越好,索引當然能夠提升相應的 select 的效率,但同時也下降了 insert 及 
update 的效率,由於 insert 或 update 
時有可能會重建索引,因此怎樣建索引須要慎重考慮,視具體狀況而定。一個表的索引數最好不要超過6個,若太多則應考慮一些不常使用到的列上建的索引是否有必要。
16.應儘量的避免更新 clustered 索引數據列,由於 clustered 
索引數據列的順序就是表記錄的物理存儲順序,一旦該列值改變將致使整個表記錄的順序的調整,會耗費至關大的資源。若應用系統須要頻繁更新 clustered 
索引數據列,那麼須要考慮是否應將該索引建爲 clustered 索引。
17.儘可能使用數字型字段,若只含數值信息的字段儘可能不要設計爲字符型,這會下降查詢和鏈接的性能,並會增長存儲開銷。這是由於引擎在處理查詢和鏈接時會逐個比較字符串中每個字符,而對於數字型而言只須要比較一次就夠了。
18.儘量的使用 varchar/nvarchar 代替 char/nchar 
,由於首先變長字段存儲空間小,能夠節省存儲空間,其次對於查詢來講,在一個相對較小的字段內搜索效率顯然要高些。
19.任何地方都不要使用 select * from t 
,用具體的字段列表代替「*」,不要返回用不到的任何字段。
20.儘可能使用表變量來代替臨時表。若是表變量包含大量數據,請注意索引很是有限(只有主鍵索引)。
21.避免頻繁建立和刪除臨時表,以減小系統表資源的消耗。
22.臨時表並非不可以使用,適當地使用它們可使某些例程更有效,例如,當須要重複引用大型表或經常使用表中的某個數據集時。可是,對於一次性事件,最好使用導出表。
23.在新建臨時表時,若是一次性插入數據量很大,那麼可使用 select into 代替 create 
table,避免形成大量 log ,以提升速度;若是數據量不大,爲了緩和系統表的資源,應先create table,而後insert。
24.若是使用到了臨時表,在存儲過程的最後務必將全部的臨時表顯式刪除,先 truncate table 
,而後 drop table ,這樣能夠避免系統表的較長時間鎖定。
25.儘可能避免使用遊標,由於遊標的效率較差,若是遊標操做的數據超過1萬行,那麼就應該考慮改寫。
26.使用基於遊標的方法或臨時表方法以前,應先尋找基於集的解決方案來解決問題,基於集的方法一般更有效。
27.與臨時表同樣,遊標並非不可以使用。對小型數據集使用 FAST_FORWARD 
遊標一般要優於其餘逐行處理方法,尤爲是在必須引用幾個表才能得到所需的數據時。在結果集中包括「合計」的例程一般要比使用遊標執行的速度快。若是開發時間容許,基於遊標的方法和基於集的方法均可以嘗試一下,看哪種方法的效果更好。
28.在全部的存儲過程和觸發器的開始處設置 SET NOCOUNT ON ,在結束時設置 SET 
NOCOUNT OFF 。無需在執行存儲過程和觸發器的每一個語句後向客戶端發送 DONE_IN_PROC 消息。
29.儘可能避免大事務操做,提升系統併發能力。

30.儘可能避免向客戶端返回大數據量,若數據量過大,應該考慮相應需求是否合理。

相關文章
相關標籤/搜索