MS SQL Server查詢優化方法 查詢速度慢的緣由不少,常見以下幾種javascript
1、沒有索引或者沒有用到索引(這是查詢慢最多見的問題,是程序設計的缺陷)java
2、I/O吞吐量小,造成了瓶頸效應。程序員
3、沒有建立計算列致使查詢不優化。sql
4、內存不足數據庫
5、網絡速度慢編程
6、查詢出的數據量過大(能夠採用屢次查詢,其餘的方法下降數據量)服務器
7、鎖或者死鎖(這也是查詢慢最多見的問題,是程序設計的缺陷)網絡
8、sp_lock,sp_who,活動的用戶查看,緣由是讀寫競爭資源。併發
9、返回了沒必要要的行和列oracle
10、查詢語句很差,沒有優化
能夠經過以下方法來優化查詢
1、把數據、日誌、索引放到不一樣的I/O設備上,增長讀取速度,之前能夠將Tempdb應放在RAID0上,SQL2000不在支持。數據量(尺寸)越大,提升I/O越重要.
2、縱向、橫向分割表,減小表的尺寸(sp_spaceuse)
3、升級硬件
4、根據查詢條件,創建索引,優化索引、優化訪問方式,限制結果集的數據量。注意填充因子要適當(最好是使用默認值0)。索引應該儘可能小,使用字節數小的列建索引好(參照索引的建立),不要對有限的幾個值的字段建單一索引如性別字段
5、提升網速;
6、擴大服務器的內存,Windows 2000和SQL server 2000能支持4-8G的內存。配置虛擬內存:虛擬內存大小應基於計算機上併發運行的服務進行配置。運行 Microsoft SQL Server? 2000 時,可考慮將虛擬內存大小設置爲計算機中安裝的物理內存的 1.5 倍。若是另外安裝了全文檢索功能,並打算運行 Microsoft 搜索服務以便執行全文索引和查詢,可考慮:將虛擬內存大小配置爲至少是計算機中安裝的物理內存的 3 倍。將 SQL Server max server memory 服務器配置選項配置爲物理內存的 1.5 倍(虛擬內存大小設置的一半)。
7、增長服務器CPU個數;可是必須明白並行處理串行處理更須要資源例如內存。使用並行仍是串行程是MsSQL自動評估選擇的。單個任務分解成多個任務,就能夠在處理器上運行。例如耽擱查詢的排序、鏈接、掃描和GROUP BY字句同時執行,SQL SERVER根據系統的負載狀況決定最優的並行等級,複雜的須要消耗大量的CPU的查詢最適合並行處理。可是更新操做UPDATE,INSERT, DELETE還不能並行處理。
8、若是是使用like進行查詢的話,簡單的使用index是不行的,可是全文索引,耗空間。 like 'a%' 使用索引 like '%a' 不使用索引用 like '%a%' 查詢時,查詢耗時和字段值總長度成正比,因此不能用CHAR類型,而是VARCHAR。對於字段的值很長的建全文索引。
9、DB Server 和APPLication Server 分離;OLTP和OLAP分離
10、分佈式分區視圖可用於實現數據庫服務器聯合體。聯合體是一組分開管理的服務器,但它們相互協做分擔系統的處理負荷。這種經過分區數據造成數據庫服務器聯合體的機制可以擴大一組服務器,以支持大型的多層 Web 站點的處理須要。有關更多信息,參見設計聯合數據庫服務器。(參照SQL幫助文件'分區視圖')
a、在實現分區視圖以前,必須先水平分區表
b、在建立成員表後,在每一個成員服務器上定義一個分佈式分區視圖,而且每一個視圖具備相同的名稱。這樣,引用分佈式分區視圖名的查詢能夠在任何一個成員服務器上運行。系統操做如同每一個成員服務器上都有一個原始表的複本同樣,但其實每一個服務器上只有一個成員表和一個分佈式分區視圖。數據的位置對應用程序是透明的。
11、重建索引 DBCC REINDEX ,DBCC INDEXDEFRAG,收縮數據和日誌 DBCC SHRINKDB,DBCC SHRINKFILE. 設置自動收縮日誌.對於大的數據庫不要設置數據庫自動增加,它會下降服務器的性能。 在T-sql的寫法上有很大的講究,下面列出常見的要點:首先,DBMS處理查詢計劃的過程是這樣的:
1、 查詢語句的詞法、語法檢查
2、 將語句提交給DBMS的查詢優化器
3、 優化器作代數優化和存取路徑的優化
4、 由預編譯模塊生成查詢規劃
5、 而後在合適的時間提交給系統處理執行
6、 最後將執行結果返回給用戶其次,看一下SQL SERVER的數據存放的結構:一個頁面的大小爲8K(8060)字節,8個頁面爲一個盤區,按照B樹存放。
12、Commit和rollback的區別
Rollback:回滾全部的事物。
Commit:提交當前的事物.
沒有必要在動態SQL裏寫事物,若是要寫請寫在外面如: begin tran exec(@s) commit trans 或者將動態SQL 寫成函數或者存儲過程。
13、在查詢Select語句中用Where字句限制返回的行數,避免表掃描,若是返回沒必要要的數據,浪費了服務器的I/O資源,加劇了網絡的負擔下降性能。若是表很大,在表掃描的期間將表鎖住,禁止其餘的聯接訪問表,後果嚴重。
14、SQL的註釋申明對執行沒有任何影響
15、儘量不使用光標,它佔用大量的資源。若是須要row-by-row地執行,儘可能採用非光標技術,如:在客戶端循環,用臨時表,Table變量,用子查詢,用Case語句等等。遊標能夠按照它所支持的提取選項進行分類: 只進 必須按照從第一行到最後一行的順序提取行。FETCH NEXT 是惟一容許的提取操做,也是默認方式。可滾動性 能夠在遊標中任何地方隨機提取任意行。遊標的技術在SQL2000下變得功能很強大,他的目的是支持循環。
有四個併發選項
READ_ONLY:不容許經過遊標定位更新(Update),且在組成結果集的行中沒有鎖。
OPTIMISTIC WITH valueS:樂觀併發控制是事務控制理論的一個標準部分。樂觀併發控制用於這樣的情形,即在打開遊標及更新行的間隔中,只有很小的機會讓第二個用戶更新某一行。當某個遊標以此選項打開時,沒有鎖控制其中的行,這將有助於最大化其處理能力。若是用戶試圖修改某一行,則此行的當前值會與最後一次提取此行時獲取的值進行比較。若是任何值發生改變,則服務器就會知道其餘人已更新了此行,並會返回一個錯誤。若是值是同樣的,服務器就執行修改。 選擇這個併發選項OPTIMISTIC WITH ROW VERSIONING:此樂觀併發控制選項基於行版本控制。使用行版本控制,其中的表必須具備某種版本標識符,服務器可用它來肯定該行在讀入遊標後是否有所更改。
在 SQL Server 中,這個性能由 timestamp 數據類型提供,它是一個二進制數字,表示數據庫中更改的相對順序。每一個數據庫都有一個全局當前時間戳值:@@DBTS。每次以任何方式更改帶有 timestamp 列的行時,SQL Server 先在時間戳列中存儲當前的 @@DBTS 值,而後增長 @@DBTS 的值。若是某 個表具備 timestamp 列,則時間戳會被記到行級。服務器就能夠比較某行的當前時間戳值和上次提取時所存儲的時間戳值,從而肯定該行是否已更新。服務器沒必要比較全部列的值,只需比較 timestamp 列便可。若是應用程序對沒有 timestamp 列的表要求基於行版本控制的樂觀併發,則遊標默認爲基於數值的樂觀併發控制。
SCROLL LOCKS 這個選項實現悲觀併發控制。在悲觀併發控制中,在把數據庫的行讀入遊標結果集時,應用程序將試圖鎖定數據庫行。在使用服務器遊標時,將行讀入遊標時會在其上放置一個更新鎖。若是在事務內打開遊標,則該事務更新鎖將一直保持到事務被提交或回滾;當提取下一行時,將除去遊標鎖。若是在事務外打開遊標,則提取下一行時,鎖就被丟棄。所以,每當用戶須要徹底的悲觀併發控制時,遊標都應在事務內打開。更新鎖將阻止任何其它任務獲取更新鎖或排它鎖,從而阻止其它任務更新該行。
然而,更新鎖並不阻止共享鎖,因此它不會阻止其它任務讀取行,除非第二個任務也在要求帶更新鎖的讀取。滾動鎖根據在遊標定義的 SELECT 語句中指定的鎖提示,這些遊標併發選項能夠生成滾動鎖。滾動鎖在提取時在每行上獲取,並保持到下次提取或者遊標關閉,以先發生者爲準。下次提取時,服務器爲新提取中的行獲取滾動鎖,並釋放上次提取中行的滾動鎖。滾動鎖獨立於事務鎖,並能夠保持到一個提交或回滾操做以後。若是提交時關閉遊標的選項爲關,則 COMMIT 語句並不關閉任何打開的遊標,並且滾動鎖被保留到提交以後,以維護對所提取數據的隔離。所獲取滾動鎖的類型取決於遊標併發選項和遊標 SELECT 語句中的鎖提示。 鎖提示 只讀 樂觀數值 樂觀行版本控制 鎖定無提示 未鎖定 未鎖定 未鎖定 更新 NOLOCK 未鎖定 未鎖定 未鎖定 未鎖定 HOLDLOCK 共享 共享 共享 更新 UPDLOCK 錯誤 更新 更新 更新 TABLOCKX 錯誤 未鎖定 未鎖定 更新其它 未鎖定 未鎖定 未鎖定 更新 *指定 NOLOCK 提示將使指定了該提示的表在遊標內是隻讀的。
16、用Profiler來跟蹤查詢,獲得查詢所需的時間,找出SQL的問題所在;用索引優化器優化索引
17、注意UNion和UNion all 的區別。UNION all好
18、注意使用DISTINCT,在沒有必要時不要用,它同UNION同樣會使查詢變慢。重複的記錄在查詢裏是沒有問題的
19、查詢時不要返回不須要的行、列
20、用sp_configure 'query governor cost limit'或者SET QUERY_GOVERNOR_COST_LIMIT來限制查詢消耗的資源。當評估查詢消耗的資源超出限制時,服務器自動取消查詢,在查詢以前就扼殺掉。 SET LOCKTIME設置鎖的時間 21、用select top 100 / 10 Percent 來限制用戶返回的行數或者SET ROWCOUNT來限制操做的行
22、在SQL2000之前,通常不要用以下的字句: "IS NULL", " <> ", "!=", "!> ", "! <", "NOT", "NOT EXISTS", "NOT IN", "NOT LIKE", and "LIKE '%500'",由於他們不走索引全是表掃描。也不要在WHere字句中的列名加函數,如Convert,substring等,若是必須用函數的時候,建立計算列再建立索引來替代.還能夠變通寫法:WHERE SUBSTRING(firstname,1,1) = 'm'改成WHERE firstname like 'm%'(索引掃描),必定要將函數和列名分開。而且索引不能建得太多和太大。NOT IN會屢次掃描表,使用EXISTS、NOT EXISTS ,IN , LEFT OUTER JOIN 來替代,特別是左鏈接,而Exists比IN更快,最慢的是NOT操做.若是列的值含有空,之前它的索引不起做用,如今2000的優化器可以處理了。相同的是IS NULL,「NOT", "NOT EXISTS", "NOT IN"能優化她,而」 <> 」等仍是不能優化,用不到索引。
23、使用Query Analyzer,查看SQL語句的查詢計劃和評估分析是不是優化的SQL。通常的20%的代碼佔據了80%的資源,咱們優化的重點是這些慢的地方。
24、若是使用了IN或者OR等時發現查詢沒有走索引,使用顯示申明指定索引: SELECT * FROM PersonMember (INDEX = IX_Title) WHERE processid IN (‘男’,‘女’)
25、將須要查詢的結果預先計算好放在表中,查詢的時候再SELECT。這在SQL7.0之前是最重要的手段。例如醫院的住院費計算。
26、MIN() 和 MAX()能使用到合適的索引
27、數據庫有一個原則是代碼離數據越近越好,因此優先選擇Default,依次爲Rules,Triggers, Constraint(約束如外健主健CheckUNIQUE……,數據類型的最大長度等等都是約束),Procedure.這樣不只維護工做小,編寫程序質量高,而且執行的速度快。
28、若是要插入大的二進制值到Image列,使用存儲過程,千萬不要用內嵌INsert來插入(不知JAVA是否)。由於這樣應用程序首先將二進制值轉換成字符串(尺寸是它的兩倍),服務器受到字符後又將他轉換成二進制值.存儲過程就沒有這些動做: 方法:Create procedure p_insert as insert into table(Fimage) values (@image), 在前臺調用這個存儲過程傳入二進制參數,這樣處理速度明顯改善。
29、Between在某些時候比IN速度更快,Between可以更快地根據索引找到範圍。用查詢優化器可見到差異。 select * from chineseresume where title in ('男','女') Select * from chineseresume where between '男' and '女' 是同樣的。因爲in會在比較屢次,因此有時會慢些。
30、在必要是對全局或者局部臨時表建立索引,有時可以提升速度,但不是必定會這樣,由於索引也耗費大量的資源。他的建立同是實際表同樣。
31、不要建沒有做用的事物例如產生報表時,浪費資源。只有在必要使用事物時使用它。 32、用OR的字句能夠分解成多個查詢,而且經過UNION 鏈接多個查詢。他們的速度只同是否使用索引有關,若是查詢須要用到聯合索引,用UNION all執行的效率更高.多個OR的字句沒有用到索引,改寫成UNION的形式再試圖與索引匹配。一個關鍵的問題是否用到索引。
33、儘可能少用視圖,它的效率低。對視圖操做比直接對錶操做慢,能夠用stored procedure來代替她。特別的是不要用視圖嵌套,嵌套視圖增長了尋找原始資料的難度。咱們看視圖的本質:它是存放在服務器上的被優化好了的已經產生了查詢規劃的SQL。對單個表檢索數據時,不要使用指向多個表的視圖,直接從表檢索或者僅僅包含這個表的視圖上讀,不然增長了沒必要要的開銷,查詢受到干擾.爲了加快視圖的查詢,MsSQL增長了視圖索引的功能。
34、沒有必要時不要用DISTINCT和ORDER BY,這些動做能夠改在客戶端執行。它們增長了額外的開銷。這同UNION 和UNION ALL同樣的道理。 SELECT top 20 ad.companyname,comid,position,ad.referenceid,worklocation, convert(varchar(10),ad.postDate,120) as postDate1,workyear,degreedescription FROM jobcn_query.dbo.COMPANYAD_query ad where referenceID in('JCNAD00329667','JCNAD132168','JCNAD00337748','JCNAD00338345','JCNAD00333138','JCNAD00303570', 'JCNAD00303569','JCNAD00303568','JCNAD00306698','JCNAD00231935','JCNAD00231933','JCNAD00254567', 'JCNAD00254585','JCNAD00254608','JCNAD00254607','JCNAD00258524','JCNAD00332133','JCNAD00268618', 'JCNAD00279196','JCNAD00268613') order by postdate desc
35、在IN後面值的列表中,將出現最頻繁的值放在最前面,出現得最少的放在最後面,減小判斷的次數
36、當用SELECT INTO時,它會鎖住系統表(sysobjects,sysindexes等等),阻塞其餘的鏈接的存取。建立臨時表時用顯示申明語句,而不是 select INTO. drop table t_lxh begin tran select * into t_lxh from chineseresume where name = 'XYZ' --commit 在另外一個鏈接中SELECT * from sysobjects能夠看到 SELECT INTO 會鎖住系統表,Create table 也會鎖系統表(無論是臨時表仍是系統表)。因此千萬不要在事物內使用它!!!這樣的話若是是常常要用的臨時表請使用實表,或者臨時表變量。 37、通常在GROUP BY 個HAVING字句以前就能剔除多餘的行,因此儘可能不要用它們來作剔除行的工做。他們的執行順序應該以下最優:select 的Where字句選擇全部合適的行,Group By用來分組個統計行,Having字句用來剔除多餘的分組。這樣Group By 個Having的開銷小,查詢快.對於大的數據行進行分組和Having十分消耗資源。若是Group BY的目的不包括計算,只是分組,那麼用Distinct更快
38、一次更新多條記錄比分屢次更新每次一條快,就是說批處理好
39、少用臨時表,儘可能用結果集和Table類性的變量來代替它,Table 類型的變量比臨時表好
40、在SQL2000下,計算字段是能夠索引的,須要知足的條件以下:
a、計算字段的表達是肯定的 b、不能用在TEXT,Ntext,Image數據類型 c、必須配製以下選項 ANSI_NULLS = ON, ANSI_PADDINGS = ON, …….
41、儘可能將數據的處理工做放在服務器上,減小網絡的開銷,如使用存儲過程。存儲過程是編譯好、優化過、而且被組織到一個執行規劃裏、且存儲在數據庫中的 SQL語句,是控制流語言的集合,速度固然快。反覆執行的動態SQL,可使用臨時存儲過程,該過程(臨時表)被放在Tempdb中。之前因爲SQL SERVER對複雜的數學計算不支持,因此不得不將這個工做放在其餘的層上而增長網絡的開銷。SQL2000支持UDFs,如今支持複雜的數學計算,函數的返回值不要太大,這樣的開銷很大。用戶自定義函數象光標同樣執行的消耗大量的資源,若是返回大的結果採用存儲過程
42、不要在一句話裏再三的使用相同的函數,浪費資源,將結果放在變量裏再調用更快
43、SELECT COUNT(*)的效率教低,儘可能變通他的寫法,而EXISTS快.同時請注意區別: select count(Field of null) from Table 和 select count(Field of NOT null) from Table 的返回值是不一樣的。
44、當服務器的內存夠多時,配製線程數量 = 最大鏈接數+5,這樣能發揮最大的效率;不然使用 配製線程數量 <最大鏈接數啓用SQL SERVER的線程池來解決,若是仍是數量 = 最大鏈接數+5,嚴重的損害服務器的性能。
45、按照必定的次序來訪問你的表。若是你先鎖住表A,再鎖住表B,那麼在全部的存儲過程當中都要按照這個順序來鎖定它們。若是你(不經意的)某個存儲過程當中先鎖定表B,再鎖定表A,這可能就會致使一個死鎖。若是鎖定順序沒有被預先詳細的設計好,死鎖很難被發現
46、經過SQL Server Performance Monitor監視相應硬件的負載 Memory: Page Faults / sec計數器若是該值偶爾走高,代表當時有線程競爭內存。若是持續很高,則內存多是瓶頸。 Process:
1、% DPC Time 指在範例間隔期間處理器用在緩延程序調用(DPC)接收和提供服務的百分比。(DPC 正在運行的爲比標準間隔優先權低的間隔)。 因爲 DPC 是以特權模式執行的,DPC 時間的百分比爲特權時間 百分比的一部分。這些時間單獨計算而且不屬於間隔計算總數的一部 分。這個總數顯示了做爲實例時間百分比的平均忙時。
2、%Processor Time計數器 若是該參數值持續超過95%,代表瓶頸是CPU。能夠考慮增長一個處理器或換一個更快的處理器。
3、% Privileged Time 指非閒置處理器時間用於特權模式的百分比。(特權模式是爲操做系統組件和操縱硬件驅動程序而設計的一種處理模式。它容許直接訪問硬件和全部內存。另外一種模式爲用戶模式,它是一種爲應用程序、環境分系統和整數分系統設計的一種有限處理模式。操做系統將應用程序線程轉換成特權模式以訪問操做系統服務)。 特權時間的 % 包括爲間斷和 DPC 提供服務的時間。特權時間比率高多是因爲失敗設備產生的大數量的間隔而引發的。這個計數器將平均忙時做爲樣本時間的一部分顯示。
4、% User Time表示耗費CPU的數據庫操做,如排序,執行aggregate functions等。若是該值很高,可考慮增長索引,儘可能使用簡單的表聯接,水平分割大表格等方法來下降該值。 Physical Disk: Curretn Disk Queue Length計數器該值應不超過磁盤數的1.5~2倍。要提升性能,可增長磁盤。 SQLServer:Cache Hit Ratio計數器該值越高越好。若是持續低於80%,應考慮增長內存。 注意該參數值是從SQL Server啓動後,就一直累加記數,因此運行通過一段時間後,該值將不能反映系統當前值。
47、分析select emp_name form employee where salary > 3000 在此語句中若salary是Float類型的,則優化器對其進行優化爲Convert(float,3000),由於3000是個整數,咱們應在編程時使用3000.0而不要等運行時讓DBMS進行轉化。一樣字符和整型數據的轉換。
======================================================================================================
咱們要作到不但會寫SQL,還要作到寫出性能優良的SQL,如下爲筆者學習、摘錄、並彙總部分資料與你們分享!
(1) 選擇最有效率的表名順序(只在基於規則的優化器中有效): ORACLE 的解析器按照從右到左的順序處理FROM子句中的表名,FROM子句中寫在最後的表(基礎表 driving table)將被最早處理,在FROM子句中包含多個表的狀況下,你必須選擇記錄條數最少的表做爲基礎表。若是有3個以上的錶鏈接查詢, 那就須要選擇交叉表(intersection table)做爲基礎表, 交叉表是指那個被其餘表所引用的表.
(2) WHERE子句中的鏈接順序.: ORACLE採用自下而上的順序解析WHERE子句,根據這個原理,表之間的鏈接必須寫在其餘WHERE條件以前, 那些能夠過濾掉最大數量記錄的條件必須寫在WHERE子句的末尾.
(3) SELECT子句中避免使用 ‘ * ‘: ORACLE在解析的過程當中, 會將'*' 依次轉換成全部的列名, 這個工做是經過查詢數據字典完成的, 這意味着將耗費更多的時間 (4) 減小訪問數據庫的次數: ORACLE在內部執行了許多工做: 解析SQL語句, 估算索引的利用率, 綁定變量 , 讀數據塊等;
(5) 在SQL*Plus , SQL*Forms和Pro*C中從新設置ARRAYSIZE參數, 能夠增長每次數據庫訪問的檢索數據量 ,建議值爲200
(6) 使用DECODE函數來減小處理時間: 使用DECODE函數能夠避免重複掃描相同記錄或重複鏈接相同的表.
(7) 整合簡單,無關聯的數據庫訪問: 若是你有幾個簡單的數據庫查詢語句,你能夠把它們整合到一個查詢中(即便它們之間沒有關係)
(8) 刪除重複記錄: 最高效的刪除重複記錄方法 ( 由於使用了ROWID)例子: DELETE FROM EMP E WHERE E.ROWID > (SELECT MIN(X.ROWID) FROM EMP X WHERE X.EMP_NO = E.EMP_NO);
(9) 用TRUNCATE替代DELETE: 當刪除表中的記錄時,在一般狀況下, 回滾段(rollback segments ) 用來存放能夠被恢復的信息. 若是你沒有COMMIT事務,ORACLE會將數據恢復到刪除以前的狀態(準確地說是恢復到執行刪除命令以前的情況) 而當運用TRUNCATE時, 回滾段再也不存聽任何可被恢復的信息.當命令運行後,數據不能被恢復.所以不多的資源被調用,執行時間也會很短. (譯者按: TRUNCATE只在刪除全表適用,TRUNCATE是DDL不是DML)
(10) 儘可能多使用COMMIT: 只要有可能,在程序中儘可能多使用COMMIT, 這樣程序的性能獲得提升,需求也會由於COMMIT所釋放的資源而減小: COMMIT所釋放的資源:
a. 回滾段上用於恢復數據的信息.
b. 被程序語句得到的鎖
c. redo log buffer 中的空間
d. ORACLE爲管理上述3種資源中的內部花費
(11) 用Where子句替換HAVING子句: 避免使用HAVING子句, HAVING 只會在檢索出全部記錄以後纔對結果集進行過濾. 這個處理須要排序,總計等操做. 若是能經過WHERE子句限制記錄的數目,那就能減小這方面的開銷. (非oracle中)on、where、having這三個均可以加條件的子句中,on是最早執行,where次之,having最後,由於on是先把不符合條件的記錄過濾後才進行統計,它就能夠減小中間運算要處理的數據,按理說應該速度是最快的,where也應該比having快點的,由於它過濾數據後才進行sum,在兩個表聯接時才用on的,因此在一個表的時候,就剩下where跟having比較了。在這單表查詢統計的狀況下,若是要過濾的條件沒有涉及到要計算字段,那它們的結果是同樣的,只是where可使用rushmore技術,而having就不能,在速度上後者要慢若是要涉及到計算的字段,就表示在沒計算以前,這個字段的值是不肯定的,根據上篇寫的工做流程,where的做用時間是在計算以前就完成的,而having就是在計算後才起做用的,因此在這種狀況下,二者的結果會不一樣。在多表聯接查詢時,on比where更早起做用。系統首先根據各個表之間的聯接條件,把多個表合成一個臨時表後,再由where進行過濾,而後再計算,計算完後再由having進行過濾。因而可知,要想過濾條件起到正確的做用,首先要明白這個條件應該在何時起做用,而後再決定放在那裏
(12) 減小對錶的查詢: 在含有子查詢的SQL語句中,要特別注意減小對錶的查詢.例子: SELECT TAB_NAME FROM TABLES WHERE (TAB_NAME,DB_VER) = ( SELECT TAB_NAME,DB_VER FROM TAB_COLUMNS WHERE VERSION = 604)
(13) 經過內部函數提升SQL效率.: 複雜的SQL每每犧牲了執行效率. 可以掌握上面的運用函數解決問題的方法在實際工做中是很是有意義的
(14) 使用表的別名(Alias): 當在SQL語句中鏈接多個表時, 請使用表的別名並把別名前綴於每一個Column上.這樣一來,就能夠減小解析的時間並減小那些由Column歧義引發的語法錯誤.
(15) 用EXISTS替代IN、用NOT EXISTS替代NOT IN:
在許多基於基礎表的查詢中,爲了知足一個條件,每每須要對另外一個表進行聯接.在這種狀況下, 使用EXISTS(或NOT EXISTS)一般將提升查詢的效率. 在子查詢中,NOT IN子句將執行一個內部的排序和合並. 不管在哪一種狀況下,NOT IN都是最低效的 (由於它對子查詢中的表執行了一個全表遍歷). 爲了不使用NOT IN ,咱們能夠把它改寫成外鏈接(Outer Joins)或NOT EXISTS.
例子:
(高效)SELECT * FROM EMP (基礎表) WHERE EMPNO > 0 AND EXISTS (SELECT ‘X' FROM DEPT WHERE DEPT.DEPTNO = EMP.DEPTNO AND LOC = ‘MELB')
(低效)SELECT * FROM EMP (基礎表) WHERE EMPNO > 0 AND DEPTNO IN(SELECT DEPTNO FROM DEPT WHERE LOC = ‘MELB')
(16) 識別'低效執行'的SQL語句:
雖然目前各類關於SQL優化的圖形化工具層出不窮,可是寫出本身的SQL工具來解決問題始終是一個最好的方法:
SELECT EXECUTIONS , DISK_READS, BUFFER_GETS, ROUND((BUFFER_GETS-DISK_READS)/BUFFER_GETS,2) Hit_radio, ROUND(DISK_READS/EXECUTIONS,2) Reads_per_run, SQL_TEXT
FROM V$SQLAREA
WHERE EXECUTIONS>0
AND BUFFER_GETS > 0
AND (BUFFER_GETS-DISK_READS)/BUFFER_GETS < 0.8 ORDER BY 4 DESC;
(17) 用索引提升效率: 索引是表的一個概念部分,用來提升檢索數據的效率,ORACLE使用了一個複雜的自平衡B-tree結構. 一般,經過索引查詢數據比全表掃描要快. 當ORACLE找出執行查詢和Update語句的最佳路徑時, ORACLE優化器將使用索引. 一樣在聯結多個表時使用索引也能夠提升效率. 另外一個使用索引的好處是,它提供了主鍵(primary key)的惟一性驗證.。那些LONG或LONG RAW數據類型, 你能夠索引幾乎全部的列. 一般, 在大型表中使用索引特別有效. 固然,你也會發現, 在掃描小表時,使用索引一樣能提升效率. 雖然使用索引能獲得查詢效率的提升,可是咱們也必須注意到它的代價. 索引須要空間來存儲,也須要按期維護, 每當有記錄在表中增減或索引列被修改時, 索引自己也會被修改. 這意味着每條記錄的INSERT , DELETE , UPDATE將爲此多付出4 , 5 次的磁盤I/O . 由於索引須要額外的存儲空間和處理,那些沒必要要的索引反而會使查詢反應時間變慢.。按期的重構索引是有必要的.: ALTER INDEX <INDEXNAME> REBUILD <TABLESPACENAME>
18) 用EXISTS替換DISTINCT: 當提交一個包含一對多表信息(好比部門表和僱員表)的查詢時,避免在SELECT子句中使用DISTINCT. 通常能夠考慮用EXIST替換, EXISTS 使查詢更爲迅速,由於RDBMS核心模塊將在子查詢的條件一旦知足後,馬上返回結果.
例子:
(低效): SELECT DISTINCT DEPT_NO,DEPT_NAME FROM DEPT D , EMP E WHERE D.DEPT_NO = E.DEPT_NO (高效): SELECT DEPT_NO,DEPT_NAME FROM DEPT D WHERE EXISTS ( SELECT ‘X' FROM EMP E WHERE E.DEPT_NO = D.DEPT_NO);
(19) sql語句用大寫的;由於oracle老是先解析sql語句,把小寫的字母轉換成大寫的再執行
(20) 在java代碼中儘可能少用鏈接符「+」鏈接字符串!
(21) 避免在索引列上使用NOT 一般, 咱們要避免在索引列上使用NOT, NOT會產生在和在索引列上使用函數相同的影響. 當ORACLE」遇到」NOT,他就會中止使用索引轉而執行全表掃描. (22) 避免在索引列上使用計算. WHERE子句中,若是索引列是函數的一部分.優化器將不使用索引而使用全表掃描.
舉例:
低效: SELECT … FROM DEPT WHERE SAL * 12 > 25000;
高效: SELECT … FROM DEPT WHERE SAL > 25000/12;
(23) 用>=替代>
高效: SELECT * FROM EMP WHERE DEPTNO >=4
低效: SELECT * FROM EMP WHERE DEPTNO >3
二者的區別在於, 前者DBMS將直接跳到第一個DEPT等於4的記錄然後者將首先定位到DEPTNO=3的記錄而且向前掃描到第一個DEPT大於3的記錄.
(24) 用UNION替換OR (適用於索引列) 一般狀況下, 用UNION替換WHERE子句中的OR將會起到較好的效果. 對索引列使用OR將形成全表掃描. 注意, 以上規則只針對多個索引列有效. 若是有column沒有被索引, 查詢效率可能會由於你沒有選擇OR而下降. 在下面的例子中, LOC_ID 和REGION上都建有索引.
高效: SELECT LOC_ID , LOC_DESC , REGION FROM LOCATION WHERE LOC_ID = 10 UNION SELECT LOC_ID , LOC_DESC , REGION FROM LOCATION WHERE REGION = 「MELBOURNE」
低效: SELECT LOC_ID , LOC_DESC , REGION FROM LOCATION WHERE LOC_ID = 10 OR REGION = 「MELBOURNE」 若是你堅持要用OR, 那就須要返回記錄最少的索引列寫在最前面.
(25) 用IN來替換OR
這是一條簡單易記的規則,可是實際的執行效果還須檢驗,在ORACLE8i下,二者的執行路徑彷佛是相同的.
低效: SELECT…. FROM LOCATION WHERE LOC_ID = 10 OR LOC_ID = 20 OR LOC_ID = 30
高效 SELECT… FROM LOCATION WHERE LOC_IN IN (10,20,30);
(26) 避免在索引列上使用IS NULL和IS NOT NULL 避免在索引中使用任何能夠爲空的列,ORACLE將沒法使用該索引.對於單列索引,若是列包含空值,索引中將不存在此記錄. 對於複合索引,若是每一個列都爲空,索引中一樣不存在此記錄. 若是至少有一個列不爲空,則記錄存在於索引中.舉例: 若是惟一性索引創建在表的A列和B列上, 而且表中存在一條記錄的A,B值爲(123,null) , ORACLE將不接受下一條具備相同A,B值(123,null)的記錄(插入). 然而若是全部的索引列都爲空,ORACLE將認爲整個鍵值爲空而空不等於空. 所以你能夠插入1000 條具備相同鍵值的記錄,固然它們都是空! 由於空值不存在於索引列中,因此WHERE子句中對索引列進行空值比較將使ORACLE停用該索引.
低效: (索引失效) SELECT … FROM DEPARTMENT WHERE DEPT_CODE IS NOT NULL;
高效: (索引有效) SELECT … FROM DEPARTMENT WHERE DEPT_CODE >=0;
(27) 老是使用索引的第一個列: 若是索引是創建在多個列上, 只有在它的第一個列(leading column)被where子句引用時,優化器纔會選擇使用該索引. 這也是一條簡單而重要的規則,當僅引用索引的第二個列時,優化器使用了全表掃描而忽略了索引
28) 用UNION-ALL 替換UNION ( 若是有可能的話): 當SQL 語句須要UNION兩個查詢結果集合時,這兩個結果集合會以UNION-ALL的方式被合併, 而後在輸出最終結果前進行排序. 若是用UNION ALL替代UNION, 這樣排序就不是必要了. 效率就會所以獲得提升. 須要注意的是,UNION ALL 將重複輸出兩個結果集合中相同記錄. 所以各位仍是要從業務需求分析使用UNION ALL的可行性. UNION 將對結果集合排序,這個操做會使用到SORT_AREA_SIZE這塊內存. 對於這塊內存的優化也是至關重要的. 下面的SQL能夠用來查詢排序的消耗量
低效:
SELECT ACCT_NUM, BALANCE_AMT
FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = '31-DEC-95'
UNION
SELECT ACCT_NUM, BALANCE_AMT
FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = '31-DEC-95'
高效:
SELECT ACCT_NUM, BALANCE_AMT
FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = '31-DEC-95'
UNION ALL
SELECT ACCT_NUM, BALANCE_AMT
FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = '31-DEC-95'
(29) 用WHERE替代ORDER BY: ORDER BY 子句只在兩種嚴格的條件下使用索引. ORDER BY中全部的列必須包含在相同的索引中並保持在索引中的排列順序. ORDER BY中全部的列必須定義爲非空. WHERE子句使用的索引和ORDER BY子句中所使用的索引不能並列.
例如: 表DEPT包含如下列: DEPT_CODE PK NOT NULL DEPT_DESC NOT NULL DEPT_TYPE NULL
低效: (索引不被使用) SELECT DEPT_CODE FROM DEPT ORDER BY DEPT_TYPE
高效: (使用索引) SELECT DEPT_CODE FROM DEPT WHERE DEPT_TYPE > 0
(30) 避免改變索引列的類型.:
當比較不一樣數據類型的數據時, ORACLE自動對列進行簡單的類型轉換.
假設 EMPNO是一個數值類型的索引列.
SELECT … FROM EMP WHERE EMPNO = ‘123'
實際上,通過ORACLE類型轉換, 語句轉化爲:
SELECT … FROM EMP WHERE EMPNO = TO_NUMBER(‘123')
幸運的是,類型轉換沒有發生在索引列上,索引的用途沒有被改變.
如今,假設EMP_TYPE是一個字符類型的索引列.
SELECT … FROM EMP WHERE EMP_TYPE = 123
這個語句被ORACLE轉換爲:
SELECT … FROM EMP WHERETO_NUMBER(EMP_TYPE)=123
由於內部發生的類型轉換, 這個索引將不會被用到! 爲了不ORACLE對你的SQL進行隱式的類型轉換, 最好把類型轉換用顯式表現出來. 注意當字符和數值比較時, ORACLE會優先轉換數值類型到字符類型
(31) 須要小心的WHERE子句: 某些SELECT 語句中的WHERE子句不使用索引. 這裏有一些例子. 在下面的例子裏,
(1)‘!=' 將不使用索引. 記住, 索引只能告訴你什麼存在於表中, 而不能告訴你什麼不存在於表中.
(2) ‘||'是字符鏈接函數. 就象其餘函數那樣, 停用了索引.
(3) ‘+'是數學函數. 就象其餘數學函數那樣, 停用了索引.
(4)相同的索引列不能互相比較,這將會啓用全表掃描.
(32)
a. 若是檢索數據量超過30%的表中記錄數.使用索引將沒有顯著的效率提升.
b. 在特定狀況下, 使用索引也許會比全表掃描慢, 但這是同一個數量級上的區別. 而一般狀況下,使用索引比全表掃描要塊幾倍乃至幾千倍!
(33) 避免使用耗費資源的操做: 帶有DISTINCT,UNION,MINUS,INTERSECT,ORDER BY的SQL語句會啓動SQL引擎 執行耗費資源的排序(SORT)功能. DISTINCT須要一次排序操做, 而其餘的至少須要執行兩次排序. 一般, 帶有UNION, MINUS , INTERSECT的SQL語句均可以用其餘方式重寫. 若是你的數據庫的SORT_AREA_SIZE調配得好, 使用UNION , MINUS, INTERSECT也是能夠考慮的, 畢竟它們的可讀性很強
(34) 優化GROUP BY: 提升GROUP BY 語句的效率, 能夠經過將不須要的記錄在GROUP BY 以前過濾掉.下面兩個查詢返回相同結果但第二個明顯就快了許多.
低效: SELECT JOB , AVG(SAL) FROM EMP GROUP by JOB HAVING JOB = ‘PRESIDENT' OR JOB = ‘MANAGER'
高效: SELECT JOB , AVG(SAL) FROM EMP WHERE JOB = ‘PRESIDENT' OR JOB = ‘MANAGER' GROUP by JOB
=====================================================================================================
優化SQL查詢:如何寫出高性能SQL語句
一、 首先要搞明白什麼叫執行計劃?
執行計劃是數據庫根據SQL語句和相關表的統計信息做出的一個查詢方案,這個方案是由查詢優化器自動分析產生的,好比一條SQL語句若是用來從一個 10萬條記錄的表中查1條記錄,那查詢優化器會選擇「索引查找」方式,若是該表進行了歸檔,當前只剩下5000條記錄了,那查詢優化器就會改變方案,採用 「全表掃描」方式。
可見,執行計劃並非固定的,它是「個性化的」。產生一個正確的「執行計劃」有兩點很重要:
(1) SQL語句是否清晰地告訴查詢優化器它想幹什麼?
(2) 查詢優化器獲得的數據庫統計信息是不是最新的、正確的?
二、 統一SQL語句的寫法
對於如下兩句SQL語句,程序員認爲是相同的,數據庫查詢優化器認爲是不一樣的。
其實就是大小寫不一樣,查詢分析器就認爲是兩句不一樣的SQL語句,必須進行兩次解析。生成2個執行計劃。因此做爲程序員,應該保證相同的查詢語句在任何地方都一致,多一個空格都不行!
三、 不要把SQL語句寫得太複雜
我常常看到,從數據庫中捕捉到的一條SQL語句打印出來有2張A4紙這麼長。通常來講這麼複雜的語句一般都是有問題的。我拿着這2頁長的SQL語句去請教原做者,結果他說時間太長,他一時也看不懂了。可想而知,連原做者都有可能看糊塗的SQL語句,數據庫也同樣會看糊塗。
通常,將一個Select語句的結果做爲子集,而後從該子集中再進行查詢,這種一層嵌套語句仍是比較常見的,可是根據經驗,超過3層嵌套,查詢優化器就很容易給出錯誤的執行計劃。由於它被繞暈了。像這種相似人工智能的東西,終究比人的分辨力要差些,若是人都看暈了,我能夠保證數據庫也會暈的。
另外,執行計劃是能夠被重用的,越簡單的SQL語句被重用的可能性越高。而複雜的SQL語句只要有一個字符發生變化就必須從新解析,而後再把這一大堆垃圾塞在內存裏。可想而知,數據庫的效率會何等低下。
四、 使用「臨時表」暫存中間結果
簡化SQL語句的重要方法就是採用臨時表暫存中間結果,可是,臨時表的好處遠遠不止這些,將臨時結果暫存在臨時表,後面的查詢就在tempdb中了,這能夠避免程序中屢次掃描主表,也大大減小了程序執行中「共享鎖」阻塞「更新鎖」,減小了阻塞,提升了併發性能。
五、 OLTP系統SQL語句必須採用綁定變量
以上兩句語句,查詢優化器認爲是不一樣的SQL語句,須要解析兩次。若是採用綁定變量
@chgtime變量能夠傳入任何值,這樣大量的相似查詢能夠重用該執行計劃了,這能夠大大下降數據庫解析SQL語句的負擔。一次解析,屢次重用,是提升數據庫效率的原則。
六、 綁定變量窺測
事物都存在兩面性,綁定變量對大多數OLTP處理是適用的,可是也有例外。好比在where條件中的字段是「傾斜字段」的時候。
「傾斜字段」指該列中的絕大多數的值都是相同的,好比一張人口調查表,其中「民族」這列,90%以上都是漢族。那麼若是一個SQL語句要查詢30歲的漢族人口有多少,那「民族」這列必然要被放在where條件中。這個時候若是採用綁定變量@nation會存在很大問題。
試想若是@nation傳入的第一個值是「漢族」,那整個執行計劃必然會選擇表掃描。而後,第二個值傳入的是「布依族」,按理說「布依族」佔的比例可能只有萬分之一,應該採用索引查找。可是,因爲重用了第一次解析的「漢族」的那個執行計劃,那麼第二次也將採用表掃描方式。這個問題就是著名的「綁定變量窺測」,建議對於「傾斜字段」不要採用綁定變量。
七、 只在必要的狀況下才使用begin tran
SQL Server中一句SQL語句默認就是一個事務,在該語句執行完成後也是默認commit的。其實,這就是begin tran的一個最小化的形式,比如在每句語句開頭隱含了一個begin tran,結束時隱含了一個commit。
有些狀況下,咱們須要顯式聲明begin tran,好比作「插、刪、改」操做須要同時修改幾個表,要求要麼幾個表都修改爲功,要麼都不成功。begin tran 能夠起到這樣的做用,它能夠把若干SQL語句套在一塊兒執行,最後再一塊兒commit。好處是保證了數據的一致性,但任何事情都不是天衣無縫的。Begin tran付出的代價是在提交以前,全部SQL語句鎖住的資源都不能釋放,直到commit掉。
可見,若是Begin tran套住的SQL語句太多,那數據庫的性能就糟糕了。在該大事務提交以前,必然會阻塞別的語句,形成block不少。
Begin tran使用的原則是,在保證數據一致性的前提下,begin tran 套住的SQL語句越少越好!有些狀況下能夠採用觸發器同步數據,不必定要用begin tran。
八、 一些SQL查詢語句應加上nolock
在SQL語句中加nolock是提升SQL Server併發性能的重要手段,在oracle中並不須要這樣作,由於oracle的結構更爲合理,有undo表空間保存「數據前影」,該數據若是在修改中還未commit,那麼你讀到的是它修改以前的副本,該副本放在undo表空間中。這樣,oracle的讀、寫能夠作到互不影響,這也是oracle 廣受稱讚的地方。SQL Server 的讀、寫是會相互阻塞的,爲了提升併發性能,對於一些查詢,能夠加上nolock,這樣讀的時候能夠容許寫,但缺點是可能讀到未提交的髒數據。使用 nolock有3條原則。
(1) 查詢的結果用於「插、刪、改」的不能加nolock !
(2) 查詢的表屬於頻繁發生頁分裂的,慎用nolock !
(3) 使用臨時表同樣能夠保存「數據前影」,起到相似oracle的undo表空間的功能,
能採用臨時表提升併發性能的,不要用nolock 。
九、 彙集索引沒有建在表的順序字段上,該表容易發生頁分裂
好比訂單表,有訂單編號orderid,也有客戶編號contactid,那麼彙集索引應該加在哪一個字段上呢?對於該表,訂單編號是順序添加的,若是在orderid上加彙集索引,新增的行都是添加在末尾,這樣不容易常常產生頁分裂。然而,因爲大多數查詢都是根據客戶編號來查的,所以,將彙集索引加在contactid上纔有意義。而contactid對於訂單表而言,並不是順序字段。
好比「張三」的「contactid」是001,那麼「張三」的訂單信息必須都放在這張表的第一個數據頁上,若是今天「張三」新下了一個訂單,那該訂單信息不能放在表的最後一頁,而是第一頁!若是第一頁放滿了呢?很抱歉,該表全部數據都要日後移動爲這條記錄騰地方。
SQL Server的索引和Oracle的索引是不一樣的,SQL Server的彙集索引其實是對錶按照彙集索引字段的順序進行了排序,至關於oracle的索引組織表。SQL Server的彙集索引就是表自己的一種組織形式,因此它的效率是很是高的。也正由於此,插入一條記錄,它的位置不是隨便放的,而是要按照順序放在該放的數據頁,若是那個數據頁沒有空間了,就引發了頁分裂。因此很顯然,彙集索引沒有建在表的順序字段上,該表容易發生頁分裂。
曾經碰到過一個狀況,一位哥們的某張表重建索引後,插入的效率大幅降低了。估計狀況大概是這樣的。該表的彙集索引可能沒有建在表的順序字段上,該表常常被歸檔,因此該表的數據是以一種稀疏狀態存在的。好比張三下過20張訂單,而最近3個月的訂單隻有5張,歸檔策略是保留3個月數據,那麼張三過去的 15張訂單已經被歸檔,留下15個空位,能夠在insert發生時從新被利用。在這種狀況下因爲有空位能夠利用,就不會發生頁分裂。可是查詢性能會比較低,由於查詢時必須掃描那些沒有數據的空位。
重建彙集索引後狀況改變了,由於重建彙集索引就是把表中的數據從新排列一遍,原來的空位沒有了,而頁的填充率又很高,插入數據常常要發生頁分裂,因此性能大幅降低。
對於彙集索引沒有建在順序字段上的表,是否要給與比較低的頁填充率?是否要避免重建彙集索引?是一個值得考慮的問題!
十、加nolock後查詢常常發生頁分裂的表,容易產生跳讀或重複讀
加nolock後能夠在「插、刪、改」的同時進行查詢,可是因爲同時發生「插、刪、改」,在某些狀況下,一旦該數據頁滿了,那麼頁分裂不可避免,而此時nolock的查詢正在發生,好比在第100頁已經讀過的記錄,可能會由於頁分裂而分到第101頁,這有可能使得nolock查詢在讀101頁時重複讀到該條數據,產生「重複讀」。同理,若是在100頁上的數據還沒被讀到就分到99頁去了,那nolock查詢有可能會漏過該記錄,產生「跳讀」。
上面提到的哥們,在加了nolock後一些操做出現報錯,估計有可能由於nolock查詢產生了重複讀,2條相同的記錄去插入別的表,固然會發生主鍵衝突。
十一、使用like進行模糊查詢時應注意
有的時候會須要進行一些模糊查詢好比
關鍵詞%yue%,因爲yue前面用到了「%」,所以該查詢必然走全表掃描,除非必要,不然不要在關鍵詞前加%,
十二、數據類型的隱式轉換對查詢效率的影響
sql server2000的數據庫,咱們的程序在提交sql語句的時候,沒有使用強類型提交這個字段的值,由sql server 2000自動轉換數據類型,會致使傳入的參數與主鍵字段類型不一致,這個時候sql server 2000可能就會使用全表掃描。Sql2005上沒有發現這種問題,可是仍是應該注意一下。
1三、SQL Server 錶鏈接的三種方式
(1) Merge Join
(2) Nested Loop Join
(3) Hash Join
SQL Server 2000只有一種join方式——Nested Loop Join,若是A結果集較小,那就默認做爲外表,A中每條記錄都要去B中掃描一遍,實際掃過的行數至關於A結果集行數x B結果集行數。因此若是兩個結果集都很大,那Join的結果很糟糕。
SQL Server 2005新增了Merge Join,若是A表和B表的鏈接字段正好是彙集索引所在字段,那麼表的順序已經排好,只要兩邊拼上去就好了,這種join的開銷至關於A表的結果集行數加上B表的結果集行數,一個是加,一個是乘,可見merge join 的效果要比Nested Loop Join好多了。
若是鏈接的字段上沒有索引,那SQL2000的效率是至關低的,而SQL2005提供了Hash join,至關於臨時給A,B表的結果集加上索引,所以SQL2005的效率比SQL2000有很大提升,我認爲,這是一個重要的緣由。
總結一下,在錶鏈接時要注意如下幾點:
(1) 鏈接字段儘可能選擇彙集索引所在的字段
(2) 仔細考慮where條件,儘可能減少A、B表的結果集
(3) 若是不少join的鏈接字段都缺乏索引,而你還在用SQL Server 2000,趕忙升級吧。