千萬級數據的查詢須要注意的地方

在一個千萬級的數據庫查尋中,如何提升查詢效率?分別說出在數據庫設計、
SQL語句、java等層面的解決方案。
  
解答:
  1)數據庫設計方面:
  a. 對查詢進行優化,應儘可能避免全表掃描,首先應考慮在 where 及 order by 涉及的列上創建索引。
  b. 應儘可能避免在where 子句中對字段進行 null 值判斷,不然將致使引擎放棄使用索引而進行全表掃描,如: select id from t where num is null 能夠在num上設置默認值0,確保表中num列沒有null值,而後這樣查詢: select id from t where num=0  c. 並非全部索引對查詢都有效,SQL是根據表中數據來進行查詢優化的,當索引列有大量數據重複時,查詢可能不會去利用索引,如一表中有字段sex,male、female
幾乎各一半,那麼即便在sex上建了索引也對查詢效率起不了做用。
 d. 索引並非越多越好,索引當然能夠提升相應的 select 的效率,但同時也下降了 insert 及 update 的效率,由於 insert 或 update 
時有可能會重建索引,因此怎樣建索引須要慎重考慮,視具體狀況而定。一個表的索引數最好不要超過6
個,若太多則應考慮一些不常使用到的列上建的索引是否有必要。
  e. 應儘量的避免更新索引數據列,由於索引數據列的順序就是表記錄的物理存儲順序,一旦該列值改變將致使整個表記錄的順序的調整,會耗費至關大的資源。若應用系統須要頻繁更新索引數據列,那麼須要考慮是否應將該索引建爲索引。
  f. 儘可能使用數字型字段,若只含數值信息的字段儘可能不要設計爲字符型,這會下降查詢和鏈接的性能,並會增長存儲開銷。這是由於引擎在處理查詢和鏈接時會逐個比較字符串中每個字符,而對於數字型而言只須要比較一次就夠了。
  g. 儘量的使用 varchar/nvarchar 代替 char/nchar ,由於首先變長字段存儲空間小,能夠節省存儲空間,其次對於查詢來講,在一個相對較小的字段內搜索效率顯然要高些。
  h. 儘可能使用表變量來代替臨時表。若是表變量包含大量數據,請注意索引很是有限(只有主鍵索引)。
  i. 避免頻繁建立和刪除臨時表,以減小系統表資源的消耗。
  j. 臨時表並非不可以使用,適當地使用它們可使某些例程更有效,例如,當須要重複引用大型表或經常使用表中的某個數據集時。可是,對於一次性事件,最好使用導出表。
  k. 在新建臨時表時,若是一次性插入數據量很大,那麼可使用 select into 代替 create table
,避免形成大量log ,以提升速度;若是數據量不大,爲了緩和系統表的資源,應先create table,而後insert。
 l. 若是使用到了臨時表,在存儲過程的最後務必將全部的臨時表顯式刪除,先 truncate table 
,而後 drop table ,這樣能夠避免系統表的較長時間鎖定。
 java

2)SQL語句方面:數據庫

  a. 應儘可能避免在 where 子句中使用!=或<>操做符,不然將引擎放棄使用索引而進行全表掃描。
  b. 應儘可能避免在where 子句中使用 or 來鏈接條件,不然將致使引擎放棄使用索引而進行全表掃描,如:
 select id from t where num=10 or num=20 能夠這樣查詢:
 select id from t where num=10 union all select id from t where num=20  緩存

  c. in 和 not in 也要慎用,不然會致使全表掃描,如: select id from t where num in(1,2,3) 對於連續的數值,能用 between 就不要用 in 了: select id from t where num between 1 and 3  併發

  d. 下面的查詢也將致使全表掃描:select id from t where name like ‘%abc%’
 e. 若是在 where 子句中使用參數,也會致使全表掃描。由於SQL只有在運行時纔會解析局部變量,但優化程序不能將訪問計劃的選擇推遲到運行時;它必須在編譯時進行選擇。然而,若是在編譯時創建訪問計劃,變量的值仍是未知的,於是沒法做爲索引選擇的輸入項。以下面語句將進行全表掃描:
 select id from t where num=@num 能夠改成強制查詢使用索引:select id from t with(index(索引名
)) where num=@num  框架

f. 應儘可能避免在 where 子句中對字段進行表達式操做,這將致使引擎放棄使用索引而進行全表掃描。如:
 select id from t where num/2=100 
應改成: select id from t where num=100*2  數據庫設計

g. 應儘可能避免在where子句中對字段進行函數操做,這將致使引擎放棄使用索引而進行全表掃描。如:
 select id from t where substring(name,1,3)=’abc’–name以abc開頭的id select id from t where datediff(day,createdate,’2005-11-30′)=0–‘2005-11-30’生成的id 應改成: select id from t where name like ‘abc%’ select id from t where createdate>=’2005-11-30′ and createdate<’2005-12-1′
  h. 不要在where 子句中的「=」左邊進行函數、算術運算或其餘表達式運算,不然系統將可能沒法正確使用索引。
  i. 不要寫一些沒有意義的查詢,如須要生成一個空表結構: select col1,col2 into #t from t where 1=0 
這類代碼不會返回任何結果集,可是會消耗系統資源的,應改爲這樣:
 create table #t(

)函數

 j. 不少時候用 exists 代替 in 是一個好的選擇: select num from a where num in(select num from b) 
用下面的語句替換:
 select num from a where exists(select 1 from b where num=a.num)性能

 k. 任何地方都不要使用 select * from t ,用具體的字段列表代替「*」,不要返回用不到的任何字段。
  l. 儘可能避免使用遊標,由於遊標的效率較差,若是遊標操做的數據超過1萬行,那麼就應該考慮改寫。
  m. 儘可能避免向客戶端返回大數據量,若數據量過大,應該考慮相應需求是否合理。
  n. 儘可能避免大事務操做,提升系統併發能力。
3)java方面:
  a.儘量的少造對象。
  b.合理擺正系統設計的位置。大量數據操做,和少許數據操做必定是分開的。大量的數據操做,確定不是
ORM框架搞定的。
  c.使用jDBC連接數據庫操做數據
 d.控制好內存,讓數據流起來,而不是所有讀到內存再處理,而是邊讀取邊處理;
  e.合理利用內存,有的數據要緩存
 大數據

相關文章
相關標籤/搜索