- 大數據量高併發的數據庫優化
- 1、數據庫結構的設計
-
- 若是不能設計一個合理的數據庫模型,不只會增長客戶端和服務器段程序的編程和維護的難度,並且將會影響系統實際運行的性能。因此,在一個系統開始實施以前,完備的數據庫模型的設計是必須的。
-
- 在一個系統分析、設計階段,由於數據量較小,負荷較低。咱們每每只注意到功能的實現,而很難注意到性能的薄弱之處,等到系統投入實際運行一段時間後,才發現系統的性能在下降,這時再來考慮提升系統性能則要花費更多的人力物力,而整個系統也不可避免的造成了一個打補丁工程。
-
- 因此在考慮整個系統的流程的時候,咱們必需要考慮,在高併發大數據量的訪問狀況下,咱們的系統會不會出現極端的狀況。(例如:對外統計系統在7月16日出現的數據異常的狀況,併發大數據量的的訪問形成,數據庫的響應時間不能跟上數據刷新的速度形成。具體狀況是:在日期臨界時(00:00:00),判斷數據庫中是否有當前日期的記錄,沒有則插入一條當前日期的記錄。在低併發訪問的狀況下,不會發生問題,可是當日期臨界時的訪問量至關大的時候,在作這一判斷的時候,會出現屢次條件成立,則數據庫裏會被插入多條當前日期的記錄,從而形成數據錯誤。),數據庫的模型肯定下來以後,咱們有必要作一個系統內數據流向圖,分析可能出現的瓶頸。
-
- 爲了保證數據庫的一致性和完整性,在邏輯設計的時候每每會設計過多的表間關聯,儘量的下降數據的冗餘。(例如用戶表的地區,咱們能夠把地區另外存放到一個地區表中)若是數據冗餘低,數據的完整性容易獲得保證,提升了數據吞吐速度,保證了數據的完整性,清楚地表達數據元素之間的關係。而對於多表之間的關聯查詢(尤爲是大數據表)時,其性能將會下降,同時也提升了客戶端程序的編程難度,所以,物理設計需折衷考慮,根據業務規則,肯定對關聯表的數據量大小、數據項的訪問頻度,對此類數據表頻繁的關聯查詢應適當提升數據冗餘設計但增長了表間鏈接查詢的操做,也使得程序的變得複雜,爲了提升系統的響應時間,合理的數據冗餘也是必要的。設計人員在設計階段應根據系統操做的類型、頻度加以均衡考慮。
- 另外,最好不要用自增屬性字段做爲主鍵與子表關聯。不便於系統的遷移和數據恢復。對外統計系統映射關係丟失(******************)。
-
- 原來的表格必須能夠經過由它分離出去的表格從新構建。使用這個規定的好處是,你能夠確保不會在分離的表格中引入多餘的列,全部你建立的表格結構都與它們的實際須要同樣大。應用這條規定是一個好習慣,不過除非你要處理一個很是大型的數據,不然你將不須要用到它。(例如一個通行證系統,我能夠將USERID,USERNAME,USERPASSWORD,單獨出來做個表,再把USERID做爲其餘表的外鍵)
-
- 表的設計具體注意的問題:
-
- 一、數據行的長度不要超過8020字節,若是超過這個長度的話在物理頁中這條數據會佔用兩行從而形成存儲碎片,下降查詢效率。
- 二、可以用數字類型的字段儘可能選擇數字類型而不用字符串類型的(電話號碼),這會下降查詢和鏈接的性能,並會增長存儲開銷。這是由於引擎在處理查詢和鏈接回逐個比較字符串中每個字符,而對於數字型而言只須要比較一次就夠了。
-
- 三、對於不可變字符類型char和可變字符類型varchar 都是8000字節,char查詢快,可是耗存儲空間,varchar查詢相對慢一些可是節省存儲空間。在設計字段的時候能夠靈活選擇,例如用戶名、密碼等長度變化不大的字段能夠選擇CHAR,對於評論等長度變化大的字段能夠選擇VARCHAR。
-
- 四、字段的長度在最大限度的知足可能的須要的前提下,應該儘量的設得短一些,這樣能夠提升查詢的效率,並且在創建索引的時候也能夠減小資源的消耗。
-
-
- 2、查詢的優化
-
- 保證在實現功能的基礎上,儘可能減小對數據庫的訪問次數;經過搜索參數,儘可能減小對錶的訪問行數,最小化結果集,從而減輕網絡負擔;可以分開的操做盡可能分開處理,提升每次的響應速度;在數據窗口使用SQL時,儘可能把使用的索引放在選擇的首列;算法的結構儘可能簡單;在查詢時,不要過多地使用通配符如SELECT * FROM T1語句,要用到幾列就選擇幾列如:SELECT COL1,COL2 FROM T1;在可能的狀況下儘可能限制儘可能結果集行數如:SELECT TOP 300 COL1,COL2,COL3 FROM T1,由於某些狀況下用戶是不須要那麼多的數據的。
- 在沒有建索引的狀況下,數據庫查找某一條數據,就必須進行全表掃描了,對全部數據進行一次遍歷,查找出符合條件的記錄。在數據量比較小的狀況下,也許看不出明顯的差異,可是當數據量大的狀況下,這種狀況就是極爲糟糕的了。
- SQL語句在SQL SERVER中是如何執行的,他們擔憂本身所寫的SQL語句會被SQL SERVER誤解。好比:
- select * from table1 where name='zhangsan' and tID > 10000
- 和執行:
- select * from table1 where tID > 10000 and name='zhangsan'
- 一些人不知道以上兩條語句的執行效率是否同樣,由於若是簡單的從語句前後上看,這兩個語句的確是不同,若是tID是一個聚合索引,那麼後一句僅僅從表的10000條之後的記錄中查找就好了;而前一句則要先從全表中查找看有幾個name='zhangsan'的,然後再根據限制條件條件tID>10000來提出查詢結果。
- 事實上,這樣的擔憂是沒必要要的。SQL SERVER中有一個「查詢分析優化器」,它能夠計算出where子句中的搜索條件並肯定哪一個索引能縮小表掃描的搜索空間,也就是說,它能實現自動優化。雖然查詢優化器能夠根據where子句自動的進行查詢優化,但有時查詢優化器就會不按照您的本意進行快速查詢。
- 在查詢分析階段,查詢優化器查看查詢的每一個階段並決定限制須要掃描的數據量是否有用。若是一個階段能夠被用做一個掃描參數(SARG),那麼就稱之爲可優化的,而且能夠利用索引快速得到所需數據。
- SARG的定義:用於限制搜索的一個操做,由於它一般是指一個特定的匹配,一個值的範圍內的匹配或者兩個以上條件的AND鏈接。形式以下:
- 列名 操做符 <常數 或 變量> 或 <常數 或 變量> 操做符 列名
- 列名能夠出如今操做符的一邊,而常數或變量出如今操做符的另外一邊。如:
- Name=’張三’
- 價格>5000
- 5000<價格
- Name=’張三’ and 價格>5000
- 若是一個表達式不能知足SARG的形式,那它就沒法限制搜索的範圍了,也就是SQL SERVER必須對每一行都判斷它是否知足WHERE子句中的全部條件。因此一個索引對於不知足SARG形式的表達式來講是無用的。
- 因此,優化查詢最重要的就是,儘可能使語句符合查詢優化器的規則避免全表掃描而使用索引查詢。
-
- 具體要注意的:
-
- 1.應儘可能避免在 where 子句中對字段進行 null 值判斷,不然將致使引擎放棄使用索引而進行全表掃描,如:
- select id from t where num is null
- 能夠在num上設置默認值0,確保表中num列沒有null值,而後這樣查詢:
- select id from t where num=0
-
- 2.應儘可能避免在 where 子句中使用!=或<>操做符,不然將引擎放棄使用索引而進行全表掃描。優化器將沒法經過索引來肯定將要命中的行數,所以須要搜索該表的全部行。
-
- 3.應儘可能避免在 where 子句中使用 or 來鏈接條件,不然將致使引擎放棄使用索引而進行全表掃描,如:
- select id from t where num=10 or num=20
- 能夠這樣查詢:
- select id from t where num=10
- union all
- select id from t where num=20
-
- 4.in 和 not in 也要慎用,由於IN會使系統沒法使用索引,而只能直接搜索表中的數據。如:
- select id from t where num in(1,2,3)
- 對於連續的數值,能用 between 就不要用 in 了:
- select id from t where num between 1 and 3
-
- 5.儘可能避免在索引過的字符數據中,使用非打頭字母搜索。這也使得引擎沒法利用索引。
- 見以下例子:
- SELECT * FROM T1 WHERE NAME LIKE ‘%L%’
- SELECT * FROM T1 WHERE SUBSTING(NAME,2,1)=’L’
- SELECT * FROM T1 WHERE NAME LIKE ‘L%’
- 即便NAME字段建有索引,前兩個查詢依然沒法利用索引完成加快操做,引擎不得不對全表全部數據逐條操做來完成任務。而第三個查詢可以使用索引來加快操做。
-
- 6.必要時強制查詢優化器使用某個索引,如在 where 子句中使用參數,也會致使全表掃描。由於SQL只有在運行時纔會解析局部變量,但優化程序不能將訪問計劃的選擇推遲到運行時;它必須在編譯時進行選擇。然而,若是在編譯時創建訪問計劃,變量的值仍是未知的,於是沒法做爲索引選擇的輸入項。以下面語句將進行全表掃描:
- select id from t where num=@num
- 能夠改成強制查詢使用索引:
- select id from t with(index(索引名)) where num=@num
-
- 7.應儘可能避免在 where 子句中對字段進行表達式操做,這將致使引擎放棄使用索引而進行全表掃描。如:
- SELECT * FROM T1 WHERE F1/2=100
- 應改成:
- SELECT * FROM T1 WHERE F1=100*2
-
- SELECT * FROM RECORD WHERE SUBSTRING(CARD_NO,1,4)=’5378’
- 應改成:
- SELECT * FROM RECORD WHERE CARD_NO LIKE ‘5378%’
-
- SELECT member_number, first_name, last_name FROM members
- WHERE DATEDIFF(yy,datofbirth,GETDATE()) > 21
- 應改成:
- SELECT member_number, first_name, last_name FROM members
- WHERE dateofbirth < DATEADD(yy,-21,GETDATE())
- 即:任何對列的操做都將致使表掃描,它包括數據庫函數、計算表達式等等,查詢時要儘量將操做移至等號右邊。
-
- 8.應儘可能避免在where子句中對字段進行函數操做,這將致使引擎放棄使用索引而進行全表掃描。如:
- select id from t where substring(name,1,3)='abc'--name以abc開頭的id
- select id from t where datediff(day,createdate,'2005-11-30')=0--‘2005-11-30’生成的id
- 應改成:
- select id from t where name like 'abc%'
- select id from t where createdate>='2005-11-30' and createdate<'2005-12-1'
-
- 9.不要在 where 子句中的「=」左邊進行函數、算術運算或其餘表達式運算,不然系統將可能沒法正確使用索引。
-
- 10.在使用索引字段做爲條件時,若是該索引是複合索引,那麼必須使用到該索引中的第一個字段做爲條件時才能保證系統使用該索引,不然該索引將不會被使用,而且應儘量的讓字段順序與索引順序相一致。
-
- 11.不少時候用 exists是一個好的選擇:
- select num from a where num in(select num from b)
- 用下面的語句替換:
- select num from a where exists(select 1 from b where num=a.num)
-
- SELECT SUM(T1.C1)FROM T1 WHERE(
- (SELECT COUNT(*)FROM T2 WHERE T2.C2=T1.C2>0)
- SELECT SUM(T1.C1) FROM T1WHERE EXISTS(
- SELECT * FROM T2 WHERE T2.C2=T1.C2)
- 二者產生相同的結果,可是後者的效率顯然要高於前者。由於後者不會產生大量鎖定的表掃描或是索引掃描。
-
- 若是你想校驗表裏是否存在某條紀錄,不要用count(*)那樣效率很低,並且浪費服務器資源。能夠用EXISTS代替。如:
- IF (SELECT COUNT(*) FROM table_name WHERE column_name = 'xxx')
- 能夠寫成:
- IF EXISTS (SELECT * FROM table_name WHERE column_name = 'xxx')
-
- 常常須要寫一個T_SQL語句比較一個父結果集和子結果集,從而找到是否存在在父結果集中有而在子結果集中沒有的記錄,如:
- SELECT a.hdr_key FROM hdr_tbl a---- tbl a 表示tbl用別名a代替
- WHERE NOT EXISTS (SELECT * FROM dtl_tbl b WHERE a.hdr_key = b.hdr_key)
- SELECT a.hdr_key FROM hdr_tbl a
- LEFT JOIN dtl_tbl b ON a.hdr_key = b.hdr_key WHERE b.hdr_key IS NULL
- SELECT hdr_key FROM hdr_tbl
- WHERE hdr_key NOT IN (SELECT hdr_key FROM dtl_tbl)
- 三種寫法均可以獲得一樣正確的結果,可是效率依次下降。
-
- 12.儘可能使用表變量來代替臨時表。若是表變量包含大量數據,請注意索引很是有限(只有主鍵索引)。
-
- 13.避免頻繁建立和刪除臨時表,以減小系統表資源的消耗。
-
- 14.臨時表並非不可以使用,適當地使用它們可使某些例程更有效,例如,當須要重複引用大型表或經常使用表中的某個數據集時。可是,對於一次性事件,最好使用導出表。
-
- 15.在新建臨時表時,若是一次性插入數據量很大,那麼可使用 select into 代替 create table,避免形成大量 log ,以提升速度;若是數據量不大,爲了緩和系統表的資源,應先create table,而後insert。
-
- 16.若是使用到了臨時表,在存儲過程的最後務必將全部的臨時表顯式刪除,先 truncate table ,而後 drop table ,這樣能夠避免系統表的較長時間鎖定。
-
- 17.在全部的存儲過程和觸發器的開始處設置 SET NOCOUNT ON ,在結束時設置 SET NOCOUNT OFF 。無需在執行存儲過程和觸發器的每一個語句後向客戶端發送 DONE_IN_PROC 消息。
-
- 18.儘可能避免大事務操做,提升系統併發能力。
-
- 19.儘可能避免向客戶端返回大數據量,若數據量過大,應該考慮相應需求是否合理。
-
- 20. 避免使用不兼容的數據類型。例如float和int、char和varchar、binary和varbinary是不兼容的。數據類型的不兼容可能使優化器沒法執行一些原本能夠進行的優化操做。例如:
- SELECT name FROM employee WHERE salary > 60000
- 在這條語句中,如salary字段是money型的,則優化器很難對其進行優化,由於60000是個整型數。咱們應當在編程時將整型轉化成爲錢幣型,而不要等到運行時轉化。
-
- 21.充分利用鏈接條件,在某種狀況下,兩個表之間可能不僅一個的鏈接條件,這時在 WHERE 子句中將鏈接條件完整的寫上,有可能大大提升查詢速度。
- 例:
- SELECT SUM(A.AMOUNT) FROM ACCOUNT A,CARD B WHERE A.CARD_NO = B.CARD_NO
- SELECT SUM(A.AMOUNT) FROM ACCOUNT A,CARD B WHERE A.CARD_NO = B.CARD_NO AND A.ACCOUNT_NO=B.ACCOUNT_NO
- 第二句將比第一句執行快得多。
-
- 2二、使用視圖加速查詢
- 把表的一個子集進行排序並建立視圖,有時能加速查詢。它有助於避免多重排序 操做,並且在其餘方面還能簡化優化器的工做。例如:
- SELECT cust.name,rcvbles.balance,……other columns
- FROM cust,rcvbles
- WHERE cust.customer_id = rcvlbes.customer_id
- AND rcvblls.balance>0
- AND cust.postcode>「98000」
- ORDER BY cust.name
-
- 若是這個查詢要被執行屢次而不止一次,能夠把全部未付款的客戶找出來放在一個視圖中,並按客戶的名字進行排序:
- CREATE VIEW DBO.V_CUST_RCVLBES
- AS
- SELECT cust.name,rcvbles.balance,……other columns
- FROM cust,rcvbles
- WHERE cust.customer_id = rcvlbes.customer_id
- AND rcvblls.balance>0
- ORDER BY cust.name
- 而後如下面的方式在視圖中查詢:
- SELECT * FROM V_CUST_RCVLBES
- WHERE postcode>「98000」
- 視圖中的行要比主表中的行少,並且物理順序就是所要求的順序,減小了磁盤I/O,因此查詢工做量能夠獲得大幅減小。
-
- 2三、能用DISTINCT的就不用GROUP BY
- SELECT OrderID FROM Details WHERE UnitPrice > 10 GROUP BY OrderID
- 可改成:
- SELECT DISTINCT OrderID FROM Details WHERE UnitPrice > 10
-
- 24.能用UNION ALL就不要用UNION
- UNION ALL不執行SELECT DISTINCT函數,這樣就會減小不少沒必要要的資源
-
- 35.儘可能不要用SELECT INTO語句。
- SELECT INOT 語句會致使表鎖定,阻止其餘用戶訪問該表。
-
- 上面咱們提到的是一些基本的提升查詢速度的注意事項,可是在更多的狀況下,每每須要反覆試驗比較不一樣的語句以獲得最佳方案。最好的方法固然是測試,看實現相同功能的SQL語句哪一個執行時間最少,可是數據庫中若是數據量不多,是比較不出來的,這時能夠用查看執行計劃,即:把實現相同功能的多條SQL語句考到查詢分析器,按CTRL+L看查所利用的索引,表掃描次數(這兩個對性能影響最大),整體上看詢成本百分比便可。
-
- 3、算法的優化
-
- 儘可能避免使用遊標,由於遊標的效率較差,若是遊標操做的數據超過1萬行,那麼就應該考慮改寫。.使用基於遊標的方法或臨時表方法以前,應先尋找基於集的解決方案來解決問題,基於集的方法一般更有效。與臨時表同樣,遊標並非不可以使用。對小型數據集使用 FAST_FORWARD 遊標一般要優於其餘逐行處理方法,尤爲是在必須引用幾個表才能得到所需的數據時。在結果集中包括「合計」的例程一般要比使用遊標執行的速度快。若是開發時間容許,基於遊標的方法和基於集的方法均可以嘗試一下,看哪種方法的效果更好。
- 遊標提供了對特定集合中逐行掃描的手段,通常使用遊標逐行遍歷數據,根據取出的數據不一樣條件進行不一樣的操做。尤爲對多表和大表定義的遊標(大的數據集合)循環很容易使程序進入一個漫長的等特甚至死機。
- 在有些場合,有時也非得使用遊標,此時也可考慮將符合條件的數據行轉入臨時表中,再對臨時表定義遊標進行操做,可時性能獲得明顯提升。
- (例如:對內統計初版)
- 封裝存儲過程
-
- 4、創建高效的索引
-
- 建立索引通常有如下兩個目的:維護被索引列的惟一性和提供快速訪問表中數據的策略。大型數據庫有兩種索引即簇索引和非簇索引,一個沒有簇索引的表是按堆結構存儲數據,全部的數據均添加在表的尾部,而創建了簇索引的表,其數據在物理上會按照簇索引鍵的順序存儲,一個表只容許有一個簇索引,所以,根據B樹結構,能夠理解添加任何一種索引均能提升按索引列查詢的速度,但會下降插入、更新、刪除操做的性能,尤爲是當填充因子(Fill Factor)較大時。因此對索引較多的表進行頻繁的插入、更新、刪除操做,建表和索引時因設置較小的填充因子,以便在各數據頁中留下較多的自由空間,減小頁分割及從新組織的工做。
- 索引是從數據庫中獲取數據的最高效方式之一。95% 的數據庫性能問題均可以採用索引技術獲得解決。做爲一條規則,我一般對邏輯主鍵使用惟一的成組索引,對系統鍵(做爲存儲過程)採用惟一的非成組索引,對任何外鍵列[字段]採用非成組索引。不過,索引就象是鹽,太多了菜就鹹了。你得考慮數據庫的空間有多大,表如何進行訪問,還有這些訪問是否主要用做讀寫。
- 實際上,您能夠把索引理解爲一種特殊的目錄。微軟的SQL SERVER提供了兩種索引:彙集索引(clustered index,也稱聚類索引、簇集索引)和非彙集索引(nonclustered index,也稱非聚類索引、非簇集索引)。下面,咱們舉例來講明一下彙集索引和非彙集索引的區別:
- 其實,咱們的漢語字典的正文自己就是一個彙集索引。好比,咱們要查「安」字,就會很天然地翻開字典的前幾頁,由於「安」的拼音是「an」,而按照拼音排序漢字的字典是以英文字母「a」開頭並以「z」結尾的,那麼「安」字就天然地排在字典的前部。若是您翻完了全部以「a」開頭的部分仍然找不到這個字,那麼就說明您的字典中沒有這個字;一樣的,若是查「張」字,那您也會將您的字典翻到最後部分,由於「張」的拼音是「zhang」。也就是說,字典的正文部分自己就是一個目錄,您不須要再去查其餘目錄來找到您須要找的內容。
- 咱們把這種正文內容自己就是一種按照必定規則排列的目錄稱爲「彙集索引」。
- 若是您認識某個字,您能夠快速地從自動中查到這個字。但您也可能會遇到您不認識的字,不知道它的發音,這時候,您就不能按照剛纔的方法找到您要查的字,而須要去根據「偏旁部首」查到您要找的字,而後根據這個字後的頁碼直接翻到某頁來找到您要找的字。但您結合「部首目錄」和「檢字表」而查到的字的排序並非真正的正文的排序方法,好比您查「張」字,咱們能夠看到在查部首以後的檢字表中「張」的頁碼是672頁,檢字表中「張」的上面是「馳」字,但頁碼倒是63頁,「張」的下面是「弩」字,頁面是390頁。很顯然,這些字並非真正的分別位於「張」字的上下方,如今您看到的連續的「馳、張、弩」三字實際上就是他們在非彙集索引中的排序,是字典正文中的字在非彙集索引中的映射。咱們能夠經過這種方式來找到您所須要的字,但它須要兩個過程,先找到目錄中的結果,而後再翻到您所須要的頁碼。
- 咱們把這種目錄純粹是目錄,正文純粹是正文的排序方式稱爲「非彙集索引」。
- 進一步引伸一下,咱們能夠很容易的理解:每一個表只能有一個彙集索引,由於目錄只能按照一種方法進行排序。
-
- (一)什麼時候使用匯集索引或非彙集索引
- 下面的表總結了什麼時候使用匯集索引或非彙集索引(很重要)。
- 動做描述 使用匯集索引 使用非彙集索引
- 列常常被分組排序 應 應
- 返回某範圍內的數據 應 不該
- 一個或極少不一樣值 不該 不該
- 小數目的不一樣值 應 不該
- 大數目的不一樣值 不該 應
- 頻繁更新的列 不該 應
- 外鍵列 應 應
- 主鍵列 應 應
- 頻繁修改索引列 不該 應
-
-
- 事實上,咱們能夠經過前面彙集索引和非彙集索引的定義的例子來理解上表。如:返回某範圍內的數據一項。好比您的某個表有一個時間列,剛好您把聚合索引創建在了該列,這時您查詢2004年1月1日至2004年10月1日之間的所有數據時,這個速度就將是很快的,由於您的這本字典正文是按日期進行排序的,聚類索引只須要找到要檢索的全部數據中的開頭和結尾數據便可;而不像非彙集索引,必須先查到目錄中查到每一項數據對應的頁碼,而後再根據頁碼查到具體內容。
-
-
- (二)結合實際,談索引使用的誤區
-
- 理論的目的是應用。雖然咱們剛纔列出了什麼時候應使用匯集索引或非彙集索引,但在實踐中以上規則卻很容易被忽視或不能根據實際狀況進行綜合分析。下面咱們將根據在實踐中遇到的實際問題來談一下索引使用的誤區,以便於你們掌握索引創建的方法。
- 一、主鍵就是彙集索引
- 這種想法筆者認爲是極端錯誤的,是對彙集索引的一種浪費。雖然SQL SERVER默認是在主鍵上創建彙集索引的。
- 一般,咱們會在每一個表中都創建一個ID列,以區分每條數據,而且這個ID列是自動增大的,步長通常爲1。咱們的這個辦公自動化的實例中的列Gid就是如此。此時,若是咱們將這個列設爲主鍵,SQL SERVER會將此列默認爲彙集索引。這樣作有好處,就是可讓您的數據在數據庫中按照ID進行物理排序,但筆者認爲這樣作意義不大。
- 顯而易見,彙集索引的優點是很明顯的,而每一個表中只能有一個彙集索引的規則,這使得彙集索引變得更加珍貴。
- 從咱們前面談到的彙集索引的定義咱們能夠看出,使用匯集索引的最大好處就是可以根據查詢要求,迅速縮小查詢範圍,避免全表掃描。在實際應用中,由於ID號是自動生成的,咱們並不知道每條記錄的ID號,因此咱們很難在實踐中用ID號來進行查詢。這就使讓ID號這個主鍵做爲彙集索引成爲一種資源浪費。其次,讓每一個ID號都不一樣的字段做爲彙集索引也不符合「大數目的不一樣值狀況下不該創建聚合索引」規則;固然,這種狀況只是針對用戶常常修改記錄內容,特別是索引項的時候會負做用,但對於查詢速度並無影響。
- 在辦公自動化系統中,不管是系統首頁顯示的須要用戶簽收的文件、會議仍是用戶進行文件查詢等任何狀況下進行數據查詢都離不開字段的是「日期」還有用戶自己的「用戶名」。
- 一般,辦公自動化的首頁會顯示每一個用戶還沒有簽收的文件或會議。雖然咱們的where語句能夠僅僅限制當前用戶還沒有簽收的狀況,但若是您的系統已創建了很長時間,而且數據量很大,那麼,每次每一個用戶打開首頁的時候都進行一次全表掃描,這樣作意義是不大的,絕大多數的用戶1個月前的文件都已經瀏覽過了,這樣作只能徒增數據庫的開銷而已。事實上,咱們徹底可讓用戶打開系統首頁時,數據庫僅僅查詢這個用戶近3個月來未閱覽的文件,經過「日期」這個字段來限制表掃描,提升查詢速度。若是您的辦公自動化系統已經創建的2年,那麼您的首頁顯示速度理論上將是原來速度8倍,甚至更快。
-
- 二、只要創建索引就能顯著提升查詢速度
- 事實上,咱們能夠發現上面的例子中,第二、3條語句徹底相同,且創建索引的字段也相同;不一樣的僅是前者在fariqi字段上創建的是非聚合索引,後者在此字段上創建的是聚合索引,但查詢速度卻有着天壤之別。因此,並不是是在任何字段上簡單地創建索引就能提升查詢速度。
- 從建表的語句中,咱們能夠看到這個有着1000萬數據的表中fariqi字段有5003個不一樣記錄。在此字段上創建聚合索引是再合適不過了。在現實中,咱們天天都會發幾個文件,這幾個文件的發文日期就相同,這徹底符合創建彙集索引要求的:「既不能絕大多數都相同,又不能只有極少數相同」的規則。由此看來,咱們創建「適當」的聚合索引對於咱們提升查詢速度是很是重要的。
-
- 三、把全部須要提升查詢速度的字段都加進彙集索引,以提升查詢速度
- 上面已經談到:在進行數據查詢時都離不開字段的是「日期」還有用戶自己的「用戶名」。既然這兩個字段都是如此的重要,咱們能夠把他們合併起來,創建一個複合索引(compound index)。
- 不少人認爲只要把任何字段加進彙集索引,就能提升查詢速度,也有人感到迷惑:若是把複合的彙集索引字段分開查詢,那麼查詢速度會減慢嗎?帶着這個問題,咱們來看一下如下的查詢速度(結果集都是25萬條數據):(日期列fariqi首先排在複合彙集索引的起始列,用戶名neibuyonghu排在後列)
- 咱們能夠看到若是僅用匯集索引的起始列做爲查詢條件和同時用到複合彙集索引的所有列的查詢速度是幾乎同樣的,甚至比用上所有的複合索引列還要略快(在查詢結果集數目同樣的狀況下);而若是僅用複合彙集索引的非起始列做爲查詢條件的話,這個索引是不起任何做用的。固然,語句一、2的查詢速度同樣是由於查詢的條目數同樣,若是複合索引的全部列都用上,並且查詢結果少的話,這樣就會造成「索引覆蓋」,於是性能能夠達到最優。同時,請記住:不管您是否常用聚合索引的其餘列,但其前導列必定要是使用最頻繁的列。
-
- (三)其餘注意事項
- 「水可載舟,亦可覆舟」,索引也同樣。索引有助於提升檢索性能,但過多或不當的索引也會致使系統低效。由於用戶在表中每加進一個索引,數據庫就要作更多的工做。過多的索引甚至會致使索引碎片。
- 因此說,咱們要創建一個「適當」的索引體系,特別是對聚合索引的建立,更應精益求精,以使您的數據庫能獲得高性能的發揮
-
- 解決方案:創建中間表,經過DTS調度天天共步數據。
- 中間表設計原則
- 記錄數同原表同樣,減小多表鏈接,保存運算好的值,若是記錄修改,根據修改日誌,從新計算中間值
-
-
- 增量同步數據(DTS)
- 直接從天天的數據庫更改日誌讀取記錄,更新中間表,根據服務器空間程度合理調度DTS,減小數據同步時間。
-
- 對中間數據進行運算
- 查詢不做字段運行,因此運算在生成中間表的過程當中已經計算
-
- 根據查詢,優化索引設計
- 根據數據查詢特性,對where ,GROUP BY等操做字段進行索引設計,提升查詢速度
-
- 優化數據類型
- 大量採用Int提升查詢、統計速度
-
- 優化中間表關鍵字
- 採用Int,提升插入速度
-
-
- 數據文件優化設計,一個主要業務,一個數據文件,建數據文件時,估計數據量,一次建一個比較大的文件,這樣所分配的文件就是一個連續文件塊。
咱們要作到不但會寫SQL,還要作到寫出性能優良的SQL,如下爲筆者學習、摘錄、並彙總部分資料與你們分享!
(1) 選擇最有效率的表名順序(只在基於規則的優化器中有效):
ORACLE 的解析器按照從右到左的順序處理FROM子句中的表名,FROM子句中寫在最後的表(基礎表 driving table)將被最早處理,在FROM子句中包含多個表的狀況下,你必須選擇記錄條數最少的表做爲基礎表。若是有3個以上的錶鏈接查詢, 那就須要選擇交叉表(intersection table)做爲基礎表, 交叉表是指那個被其餘表所引用的表.
(2) WHERE子句中的鏈接順序.:
ORACLE採用自下而上的順序解析WHERE子句,根據這個原理,表之間的鏈接必須寫在其餘WHERE條件以前, 那些能夠過濾掉最大數量記錄的條件必須寫在WHERE子句的末尾.
(3) SELECT子句中避免使用 ‘ * ‘:
ORACLE在解析的過程當中, 會將'*' 依次轉換成全部的列名, 這個工做是經過查詢數據字典完成的, 這意味着將耗費更多的時間
(4) 減小訪問數據庫的次數:
ORACLE在內部執行了許多工做: 解析SQL語句, 估算索引的利用率, 綁定變量 , 讀數據塊等;
(5) 在SQL*Plus , SQL*Forms和Pro*C中從新設置ARRAYSIZE參數, 能夠增長每次數據庫訪問的檢索數據量 ,建議值爲200
(6) 使用DECODE函數來減小處理時間:
使用DECODE函數能夠避免重複掃描相同記錄或重複鏈接相同的表.
(7) 整合簡單,無關聯的數據庫訪問:
若是你有幾個簡單的數據庫查詢語句,你能夠把它們整合到一個查詢中(即便它們之間沒有關係)
(8) 刪除重複記錄:
最高效的刪除重複記錄方法 ( 由於使用了ROWID)例子:
DELETE FROM EMP E WHERE E.ROWID > (SELECT MIN(X.ROWID)
FROM EMP X WHERE X.EMP_NO = E.EMP_NO);
(9) 用TRUNCATE替代DELETE:
當刪除表中的記錄時,在一般狀況下, 回滾段(rollback segments ) 用來存放能夠被恢復的信息. 若是你沒有COMMIT事務,ORACLE會將數據恢復到刪除以前的狀態(準確地說是恢復到執行刪除命令以前的情況) 而當運用TRUNCATE時, 回滾段再也不存聽任何可被恢復的信息.當命令運行後,數據不能被恢復.所以不多的資源被調用,執行時間也會很短. (譯者按: TRUNCATE只在刪除全表適用,TRUNCATE是DDL不是DML)
(10) 儘可能多使用COMMIT:
只要有可能,在程序中儘可能多使用COMMIT, 這樣程序的性能獲得提升,需求也會由於COMMIT所釋放的資源而減小:
COMMIT所釋放的資源:
a. 回滾段上用於恢復數據的信息.
b. 被程序語句得到的鎖
c. redo log buffer 中的空間
d. ORACLE爲管理上述3種資源中的內部花費
(11) 用Where子句替換HAVING子句:
避免使用HAVING子句, HAVING 只會在檢索出全部記錄以後纔對結果集進行過濾. 這個處理須要排序,總計等操做. 若是能經過WHERE子句限制記錄的數目,那就能減小這方面的開銷. (非oracle中)on、where、having這三個均可以加條件的子句中,on是最早執行,where次之,having最後,由於on是先把不符合條件的記錄過濾後才進行統計,它就能夠減小中間運算要處理的數據,按理說應該速度是最快的,where也應該比having快點的,由於它過濾數據後才進行sum,在兩個表聯接時才用on的,因此在一個表的時候,就剩下where跟having比較了。在這單表查詢統計的狀況下,若是要過濾的條件沒有涉及到要計算字段,那它們的結果是同樣的,只是where可使用rushmore技術,而having就不能,在速度上後者要慢若是要涉及到計算的字段,就表示在沒計算以前,這個字段的值是不肯定的,根據上篇寫的工做流程,where的做用時間是在計算以前就完成的,而having就是在計算後才起做用的,因此在這種狀況下,二者的結果會不一樣。在多表聯接查詢時,on比where更早起做用。系統首先根據各個表之間的聯接條件,把多個表合成一個臨時表後,再由where進行過濾,而後再計算,計算完後再由having進行過濾。因而可知,要想過濾條件起到正確的做用,首先要明白這個條件應該在何時起做用,而後再決定放在那裏
(12) 減小對錶的查詢:
在含有子查詢的SQL語句中,要特別注意減小對錶的查詢.例子:
SELECT TAB_NAME FROM TABLES WHERE (TAB_NAME,DB_VER) = ( SELECT
TAB_NAME,DB_VER FROM TAB_COLUMNS WHERE VERSION = 604)
(13) 經過內部函數提升SQL效率.:
複雜的SQL每每犧牲了執行效率. 可以掌握上面的運用函數解決問題的方法在實際工做中是很是有意義的
(14) 使用表的別名(Alias):
當在SQL語句中鏈接多個表時, 請使用表的別名並把別名前綴於每一個Column上.這樣一來,就能夠減小解析的時間並減小那些由Column歧義引發的語法錯誤.
(15) 用EXISTS替代IN、用NOT EXISTS替代NOT IN:
在許多基於基礎表的查詢中,爲了知足一個條件,每每須要對另外一個表進行聯接.在這種狀況下, 使用EXISTS(或NOT EXISTS)一般將提升查詢的效率. 在子查詢中,NOT IN子句將執行一個內部的排序和合並. 不管在哪一種狀況下,NOT IN都是最低效的 (由於它對子查詢中的表執行了一個全表遍歷). 爲了不使用NOT IN ,咱們能夠把它改寫成外鏈接(Outer Joins)或NOT EXISTS.
例子:
(高效)SELECT * FROM EMP (基礎表) WHERE EMPNO > 0 AND EXISTS (SELECT ‘X' FROM DEPT WHERE DEPT.DEPTNO = EMP.DEPTNO AND LOC = ‘MELB')
(低效)SELECT * FROM EMP (基礎表) WHERE EMPNO > 0 AND DEPTNO IN(SELECT DEPTNO FROM DEPT WHERE LOC = ‘MELB')
(16) 識別'低效執行'的SQL語句:
雖然目前各類關於SQL優化的圖形化工具層出不窮,可是寫出本身的SQL工具來解決問題始終是一個最好的方法:
SELECT EXECUTIONS , DISK_READS, BUFFER_GETS,
ROUND((BUFFER_GETS-DISK_READS)/BUFFER_GETS,2) Hit_radio,
ROUND(DISK_READS/EXECUTIONS,2) Reads_per_run,
SQL_TEXT
FROM V$SQLAREA
WHERE EXECUTIONS>0
AND BUFFER_GETS > 0
AND (BUFFER_GETS-DISK_READS)/BUFFER_GETS < 0.8
ORDER BY 4 DESC;
(17) 用索引提升效率:
索引是表的一個概念部分,用來提升檢索數據的效率,ORACLE使用了一個複雜的自平衡B-tree結構. 一般,經過索引查詢數據比全表掃描要快. 當ORACLE找出執行查詢和Update語句的最佳路徑時, ORACLE優化器將使用索引. 一樣在聯結多個表時使用索引也能夠提升效率. 另外一個使用索引的好處是,它提供了主鍵(primary key)的惟一性驗證.。那些LONG或LONG RAW數據類型, 你能夠索引幾乎全部的列. 一般, 在大型表中使用索引特別有效. 固然,你也會發現, 在掃描小表時,使用索引一樣能提升效率. 雖然使用索引能獲得查詢效率的提升,可是咱們也必須注意到它的代價. 索引須要空間來存儲,也須要按期維護, 每當有記錄在表中增減或索引列被修改時, 索引自己也會被修改. 這意味着每條記錄的INSERT , DELETE , UPDATE將爲此多付出4 , 5 次的磁盤I/O . 由於索引須要額外的存儲空間和處理,那些沒必要要的索引反而會使查詢反應時間變慢.。按期的重構索引是有必要的.:
ALTER INDEX <INDEXNAME> REBUILD <TABLESPACENAME>
18) 用EXISTS替換DISTINCT:
當提交一個包含一對多表信息(好比部門表和僱員表)的查詢時,避免在SELECT子句中使用DISTINCT. 通常能夠考慮用EXIST替換, EXISTS 使查詢更爲迅速,由於RDBMS核心模塊將在子查詢的條件一旦知足後,馬上返回結果. 例子:
(低效):
SELECT DISTINCT DEPT_NO,DEPT_NAME FROM DEPT D , EMP E
WHERE D.DEPT_NO = E.DEPT_NO
(高效):
SELECT DEPT_NO,DEPT_NAME FROM DEPT D WHERE EXISTS ( SELECT ‘X'
FROM EMP E WHERE E.DEPT_NO = D.DEPT_NO);
(19) sql語句用大寫的;由於oracle老是先解析sql語句,把小寫的字母轉換成大寫的再執行
(20) 在Java代碼中儘可能少用鏈接符「+」鏈接字符串!
(21) 避免在索引列上使用NOT 一般,
咱們要避免在索引列上使用NOT, NOT會產生在和在索引列上使用函數相同的影響. 當ORACLE」遇到」NOT,他就會中止使用索引轉而執行全表掃描.
(22) 避免在索引列上使用計算.
WHERE子句中,若是索引列是函數的一部分.優化器將不使用索引而使用全表掃描.
舉例:
低效:
SELECT … FROM DEPT WHERE SAL * 12 > 25000;
高效:
SELECT … FROM DEPT WHERE SAL > 25000/12;
(23) 用>=替代>
高效:
SELECT * FROM EMP WHERE DEPTNO >=4
低效:
SELECT * FROM EMP WHERE DEPTNO >3
二者的區別在於, 前者DBMS將直接跳到第一個DEPT等於4的記錄然後者將首先定位到DEPTNO=3的記錄而且向前掃描到第一個DEPT大於3的記錄.
(24) 用UNION替換OR (適用於索引列)
一般狀況下, 用UNION替換WHERE子句中的OR將會起到較好的效果. 對索引列使用OR將形成全表掃描. 注意, 以上規則只針對多個索引列有效. 若是有column沒有被索引, 查詢效率可能會由於你沒有選擇OR而下降. 在下面的例子中, LOC_ID 和REGION上都建有索引.
高效:
SELECT LOC_ID , LOC_DESC , REGION
FROM LOCATION
WHERE LOC_ID = 10
UNION
SELECT LOC_ID , LOC_DESC , REGION
FROM LOCATION
WHERE REGION = 「MELBOURNE」
低效:
SELECT LOC_ID , LOC_DESC , REGION
FROM LOCATION
WHERE LOC_ID = 10 OR REGION = 「MELBOURNE」
若是你堅持要用OR, 那就須要返回記錄最少的索引列寫在最前面.
(25) 用IN來替換OR
這是一條簡單易記的規則,可是實際的執行效果還須檢驗,在ORACLE8i下,二者的執行路徑彷佛是相同的.
低效:
SELECT…. FROM LOCATION WHERE LOC_ID = 10 OR LOC_ID = 20 OR LOC_ID = 30
高效
SELECT… FROM LOCATION WHERE LOC_IN IN (10,20,30);
(26) 避免在索引列上使用IS NULL和IS NOT NULL
避免在索引中使用任何能夠爲空的列,ORACLE將沒法使用該索引.對於單列索引,若是列包含空值,索引中將不存在此記錄. 對於複合索引,若是每一個列都爲空,索引中一樣不存在此記錄. 若是至少有一個列不爲空,則記錄存在於索引中.舉例: 若是惟一性索引創建在表的A列和B列上, 而且表中存在一條記錄的A,B值爲(123,null) , ORACLE將不接受下一條具備相同A,B值(123,null)的記錄(插入). 然而若是全部的索引列都爲空,ORACLE將認爲整個鍵值爲空而空不等於空. 所以你能夠插入1000 條具備相同鍵值的記錄,固然它們都是空! 由於空值不存在於索引列中,因此WHERE子句中對索引列進行空值比較將使ORACLE停用該索引.
低效: (索引失效)
SELECT … FROM DEPARTMENT WHERE DEPT_CODE IS NOT NULL;
高效: (索引有效)
SELECT … FROM DEPARTMENT WHERE DEPT_CODE >=0;
(27) 老是使用索引的第一個列:
若是索引是創建在多個列上, 只有在它的第一個列(leading column)被where子句引用時,優化器纔會選擇使用該索引. 這也是一條簡單而重要的規則,當僅引用索引的第二個列時,優化器使用了全表掃描而忽略了索引
28) 用UNION-ALL 替換UNION ( 若是有可能的話):
當SQL 語句須要UNION兩個查詢結果集合時,這兩個結果集合會以UNION-ALL的方式被合併, 而後在輸出最終結果前進行排序. 若是用UNION ALL替代UNION, 這樣排序就不是必要了. 效率就會所以獲得提升. 須要注意的是,UNION ALL 將重複輸出兩個結果集合中相同記錄. 所以各位仍是要從業務需求分析使用UNION ALL的可行性. UNION 將對結果集合排序,這個操做會使用到SORT_AREA_SIZE這塊內存. 對於這塊內存的優化也是至關重要的. 下面的SQL能夠用來查詢排序的消耗量
低效:
SELECT ACCT_NUM, BALANCE_AMT
FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = '31-DEC-95'
UNION
SELECT ACCT_NUM, BALANCE_AMT
FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = '31-DEC-95'
高效:
SELECT ACCT_NUM, BALANCE_AMT
FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = '31-DEC-95'
UNION ALL
SELECT ACCT_NUM, BALANCE_AMT
FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = '31-DEC-95'
(29) 用WHERE替代ORDER BY:
ORDER BY 子句只在兩種嚴格的條件下使用索引.
ORDER BY中全部的列必須包含在相同的索引中並保持在索引中的排列順序.
ORDER BY中全部的列必須定義爲非空.
WHERE子句使用的索引和ORDER BY子句中所使用的索引不能並列.
例如:
表DEPT包含如下列:
DEPT_CODE PK NOT NULL
DEPT_DESC NOT NULL
DEPT_TYPE NULL
低效: (索引不被使用)
SELECT DEPT_CODE FROM DEPT ORDER BY DEPT_TYPE
高效: (使用索引)
SELECT DEPT_CODE FROM DEPT WHERE DEPT_TYPE > 0
(30) 避免改變索引列的類型.:
當比較不一樣數據類型的數據時, ORACLE自動對列進行簡單的類型轉換.
假設 EMPNO是一個數值類型的索引列.
SELECT … FROM EMP WHERE EMPNO = ‘123'
實際上,通過ORACLE類型轉換, 語句轉化爲:
SELECT … FROM EMP WHERE EMPNO = TO_NUMBER(‘123')
幸運的是,類型轉換沒有發生在索引列上,索引的用途沒有被改變.
如今,假設EMP_TYPE是一個字符類型的索引列.
SELECT … FROM EMP WHERE EMP_TYPE = 123
這個語句被ORACLE轉換爲:
SELECT … FROM EMP WHERETO_NUMBER(EMP_TYPE)=123
由於內部發生的類型轉換, 這個索引將不會被用到! 爲了不ORACLE對你的SQL進行隱式的類型轉換, 最好把類型轉換用顯式表現出來. 注意當字符和數值比較時, ORACLE會優先轉換數值類型到字符類型
(31) 須要小心的WHERE子句:
某些SELECT 語句中的WHERE子句不使用索引. 這裏有一些例子.
在下面的例子裏, (1)‘!=' 將不使用索引. 記住, 索引只能告訴你什麼存在於表中, 而不能告訴你什麼不存在於表中. (2) ‘||'是字符鏈接函數. 就象其餘函數那樣, 停用了索引. (3) ‘+'是數學函數. 就象其餘數學函數那樣, 停用了索引. (4)相同的索引列不能互相比較,這將會啓用全表掃描.
(32) a. 若是檢索數據量超過30%的表中記錄數.使用索引將沒有顯著的效率提升.
b. 在特定狀況下, 使用索引也許會比全表掃描慢, 但這是同一個數量級上的區別. 而一般狀況下,使用索引比全表掃描要塊幾倍乃至幾千倍!
(33) 避免使用耗費資源的操做:
帶有DISTINCT,UNION,MINUS,INTERSECT,ORDER BY的SQL語句會啓動SQL引擎
執行耗費資源的排序(SORT)功能. DISTINCT須要一次排序操做, 而其餘的至少須要執行兩次排序. 一般, 帶有UNION, MINUS , INTERSECT的SQL語句均可以用其餘方式重寫. 若是你的數據庫的SORT_AREA_SIZE調配得好, 使用UNION , MINUS, INTERSECT也是能夠考慮的, 畢竟它們的可讀性很強
(34) 優化GROUP BY:
提升GROUP BY 語句的效率, 能夠經過將不須要的記錄在GROUP BY 以前過濾掉.下面兩個查詢返回相同結果但第二個明顯就快了許多.
低效:
SELECT JOB , AVG(SAL)
FROM EMP
GROUP by JOB
HAVING JOB = ‘PRESIDENT'
OR JOB = ‘MANAGER'
高效:
SELECT JOB , AVG(SAL)
FROM EMP
WHERE JOB = ‘PRESIDENT'
OR JOB = ‘MANAGER'
GROUP by JOB算法