千萬級數據的查詢須要注意的地方

時間 2020-02-03

標籤千萬數據查詢須要注意地方简体版

原文原文鏈接

在一個千萬級的數據庫查尋中，如何提升查詢效率？分別說出在數據庫設計、
SQL語句、java等層面的解決方案。

解答：
1）數據庫設計方面：
a. 對查詢進行優化，應儘可能避免全表掃描，首先應考慮在 where 及 order by 涉及的列上創建索引。
b. 應儘可能避免在where 子句中對字段進行 null 值判斷，不然將致使引擎放棄使用索引而進行全表掃描，如： select id from t where num is null 能夠在num上設置默認值0，確保表中num列沒有null值，而後這樣查詢： select id from t where num=0 c. 並非全部索引對查詢都有效，SQL是根據表中數據來進行查詢優化的，當索引列有大量數據重複時,查詢可能不會去利用索引，如一表中有字段sex，male、female
幾乎各一半，那麼即便在sex上建了索引也對查詢效率起不了做用。
d. 索引並非越多越好，索引當然能夠提升相應的 select 的效率，但同時也下降了 insert 及 update 的效率，由於 insert 或 update
時有可能會重建索引，因此怎樣建索引須要慎重考慮，視具體狀況而定。一個表的索引數最好不要超過6
個，若太多則應考慮一些不常使用到的列上建的索引是否有必要。
e. 應儘量的避免更新索引數據列，由於索引數據列的順序就是表記錄的物理存儲順序，一旦該列值改變將致使整個表記錄的順序的調整，會耗費至關大的資源。若應用系統須要頻繁更新索引數據列，那麼須要考慮是否應將該索引建爲索引。
f. 儘可能使用數字型字段，若只含數值信息的字段儘可能不要設計爲字符型，這會下降查詢和鏈接的性能，並會增長存儲開銷。這是由於引擎在處理查詢和鏈接時會逐個比較字符串中每個字符，而對於數字型而言只須要比較一次就夠了。
g. 儘量的使用 varchar/nvarchar 代替 char/nchar ，由於首先變長字段存儲空間小，能夠節省存儲空間，其次對於查詢來講，在一個相對較小的字段內搜索效率顯然要高些。
h. 儘可能使用表變量來代替臨時表。若是表變量包含大量數據，請注意索引很是有限（只有主鍵索引）。
i. 避免頻繁建立和刪除臨時表，以減小系統表資源的消耗。
j. 臨時表並非不可以使用，適當地使用它們可使某些例程更有效，例如，當須要重複引用大型表或經常使用表中的某個數據集時。可是，對於一次性事件，最好使用導出表。
k. 在新建臨時表時，若是一次性插入數據量很大，那麼可使用 select into 代替 create table
，避免形成大量log ，以提升速度；若是數據量不大，爲了緩和系統表的資源，應先create table，而後insert。
l. 若是使用到了臨時表，在存儲過程的最後務必將全部的臨時表顯式刪除，先 truncate table
，而後 drop table ，這樣能夠避免系統表的較長時間鎖定。
java

2)SQL語句方面：數據庫

a. 應儘可能避免在 where 子句中使用!=或<>操做符，不然將引擎放棄使用索引而進行全表掃描。
b. 應儘可能避免在where 子句中使用 or 來鏈接條件，不然將致使引擎放棄使用索引而進行全表掃描，如：
select id from t where num=10 or num=20 能夠這樣查詢：
select id from t where num=10 union all select id from t where num=20 緩存

c. in 和 not in 也要慎用，不然會致使全表掃描，如： select id from t where num in(1,2,3) 對於連續的數值，能用 between 就不要用 in 了： select id from t where num between 1 and 3 併發

d. 下面的查詢也將致使全表掃描：select id from t where name like ‘%abc%’
e. 若是在 where 子句中使用參數，也會致使全表掃描。由於SQL只有在運行時纔會解析局部變量，但優化程序不能將訪問計劃的選擇推遲到運行時；它必須在編譯時進行選擇。然而，若是在編譯時創建訪問計劃，變量的值仍是未知的，於是沒法做爲索引選擇的輸入項。以下面語句將進行全表掃描：
select id from t where num=@num 能夠改成強制查詢使用索引：select id from t with(index(索引名
)) where num=@num 框架

f. 應儘可能避免在 where 子句中對字段進行表達式操做，這將致使引擎放棄使用索引而進行全表掃描。如：
select id from t where num/2=100
應改成: select id from t where num=100*2 數據庫設計

g. 應儘可能避免在where子句中對字段進行函數操做，這將致使引擎放棄使用索引而進行全表掃描。如：
select id from t where substring(name,1,3)=’abc’–name以abc開頭的id select id from t where datediff(day,createdate,’2005-11-30′)=0–‘2005-11-30’生成的id 應改成: select id from t where name like ‘abc%’ select id from t where createdate>=’2005-11-30′ and createdate<’2005-12-1′
h. 不要在where 子句中的「=」左邊進行函數、算術運算或其餘表達式運算，不然系統將可能沒法正確使用索引。
i. 不要寫一些沒有意義的查詢，如須要生成一個空表結構： select col1,col2 into #t from t where 1=0
這類代碼不會返回任何結果集，可是會消耗系統資源的，應改爲這樣：
create table #t(
…
)函數

j. 不少時候用 exists 代替 in 是一個好的選擇： select num from a where num in(select num from b)
用下面的語句替換：
select num from a where exists(select 1 from b where num=a.num)性能

k. 任何地方都不要使用 select * from t ，用具體的字段列表代替「*」，不要返回用不到的任何字段。
l. 儘可能避免使用遊標，由於遊標的效率較差，若是遊標操做的數據超過1萬行，那麼就應該考慮改寫。
m. 儘可能避免向客戶端返回大數據量，若數據量過大，應該考慮相應需求是否合理。
n. 儘可能避免大事務操做，提升系統併發能力。
3)java方面：
a.儘量的少造對象。
b.合理擺正系統設計的位置。大量數據操做，和少許數據操做必定是分開的。大量的數據操做，確定不是
ORM框架搞定的。
c.使用jDBC連接數據庫操做數據
d.控制好內存，讓數據流起來，而不是所有讀到內存再處理，而是邊讀取邊處理；
e.合理利用內存，有的數據要緩存
大數據

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。