ORACLE工做原理1-鏈接數據庫
咱們從一個用戶請求開始講,ORACLE的完整的工做機制是怎樣的,首先一個用戶進程發出一個鏈接請求,若是使用的是主機命名或者是本地服務命中的主機名使用的是機器名(非IP地址),那麼這個請求都會經過DNS服務器或HOST文件的服務名解析而後傳送到ORACLE監聽進程,監聽進程接收到用戶請求後會採起兩種方式來處理這個用戶請求,下面咱們分專用服務器和共享服務器分別採用這兩種方式時的狀況來說:緩存
專用服務器模式下:一種方式是監聽進程接收到用戶進程請求後,產生一個新的專用服務器進程,而且將對用戶進程的全部控制信息傳給此服務器進程,也就是說新建的服務器進程繼承了監聽進程的信息,而後服務器進程給用戶進程發一個RESEND包,通知用戶進程能夠開始給它發信息了,用戶進程給這個新建的服務器進程發一個CONNECT包,服務器進程再以ACCEPT包迴應用戶進程,致此,用戶進程正式與服務器進程肯定鏈接。咱們把這種鏈接叫作HAND-OFF鏈接,也叫轉換鏈接。另外一種方式是監聽進程接收到用戶進程的請求後產生一個新的專用服務器進程,這個服務器進程選用一個TCP/IP端口來控制與用戶進程的交互,而後將此信息回傳給監聽進程,監聽進程再將此信息傳給用戶進程,用戶進程使用這個端口給服務器進程發送一個CONNECT包,服務器進程再給用戶進程發送一個ACCEPT包,致此,用戶進程能夠正式向服務器進程發送信息了。這種方式咱們叫作重定向鏈接。HAND-OFF鏈接須要系統平臺具備進程繼承的能力,爲了使WINDOWS NT/2000支持HAND-OFF必須在HKEY_LOCAL_MACHINE>SOFTWARE>ORACLE>HOMEX中設置USE_SHARED_SOCKET。服務器
(注意,如今基本都是專用模式,鏈接問題是由三層架構的中間件來完成的)共享服務器模式下:只有重定向鏈接的方式,工做方式是監聽進程接收到用戶進程的請求後產生一個新的調度進程,這個調度進程選用一個TCP/IP端口來控制與用戶進程的交互,而後將此信息回傳給監聽進程,監聽進程再將此信息傳給用戶進程,用戶進程使用這個端口給調度進程發送一個CONNECT包,調度進程再給用戶進程發送一個ACCEPT包,致此,用戶進程能夠正式向調度進程發送信息了。能夠經過設置MAX_DISPIATCHERS這個參數來肯定調度進程的最大數目,若是調度進程的個數已經達到了最大,或者已有的調度進程不是滿負荷,監聽進程將再也不建立新的調度進程,而是讓其中一個調度進程選用一個TCP/IP端口來與此用戶進程交互。調度進程每接收一個用戶進程請求都會在監聽進程處做一個登記,以便監聽進程可以均衡每一個調度進程的負荷,全部的用戶進程請求將分別在有限的調度進程中排隊,全部調度進程再順序的把各自隊列中的部分用戶進程請求放入同一個請求隊列,等候多個ORACLE的共享服務器進程進行處理(能夠經過SHARED_SERVERS參數設置共享服務器進程的個數),也就是說全部的調度進程共享同一個請求隊列,共享服務器模式下一個實例只有一個請求隊列,共享服務器進程處理完用戶進程的請求後將根據用戶進程請求取自不一樣的調度進程將返回結果放入不一樣的響應隊列,也就是說有多少調度進程就有多少響應隊列,而後各個調度進程從各自的響應隊列中將結果取出再返回給用戶進程。架構
ORACLE工做原理2-處理請求函數
以上咱們講完了用戶與ORACLE的鏈接方式,下面咱們要講ORACLE服務器進程如可處理用戶進程的請求,當一個用戶進程發出了一條SQL語名:UPDATE TABBLEA SET SALARY=SALARY*2;首先,服務器進程把這條語句的字符轉換成ASCII等效數字碼,接着這個ASCII碼被傳遞給一個HASH函數,並返回一個HASH值,服務器進程將到SHARED POOL 的共享PL/SQL區去查找是否存在一樣的HASH值,若是存在,服務器進程將使用這條語句已高速緩存在SHARED POOL中的已分析過的版原本執行,若是不存在,服務器進程將對該語句進行語法分析,首先檢查該語句的語法的正確性,接着對語句中涉及的表、索引、視圖等對象進行解析,並對照數據字典檢查這些對象的名稱以及相關結構,並根據ORACLE選用的優化模式以及數據字典中是否存在相應對象的統計數據和是否使用了存儲大綱來生成一個執行計劃或從存儲大綱中選用一個執行計劃,而後再用數據字典覈對此用戶對相應對象的執行權限,最後生成一個編譯代碼。ORACLE將這條語名的自己實際文本、HASH值、編譯代碼、與此語名相關聯的任何統計數據和該語句的執行計劃緩存在SHARED POOL的共享PL/SQL區。服務器進程經過SHARED POOL 鎖存器來申請能夠向哪些共享PL/SQL區中緩存這此內容,也就是說被SHARED POOL鎖存器鎖定的PL/SQL區中的塊不可被覆蓋,由於這些塊可能被其它進程所使用。在SQL分析階段將用到LIBRARY CACHE,從數據字典中核對錶、視圖等結構的時候,須要將數據字典從磁盤讀入LIBRARY CACHE,所以,在讀入以前也要使用LIBRARY CACHE鎖存器來申請用於緩存數據字典。 生成編譯代碼以後,接着下一步服務器進程要準備開始更新數據,服務器進程將到DB BUFFER中查找是否有相關對象的緩存數據,下面分兩個可能進行解釋:性能
若是沒有,服務器進程將在表頭部請求一些行鎖,若是成功加鎖,服務器進程將從數據文件中讀這些行所在的數據塊放入DB BUFFER中空閒的區域或者覆蓋已被擠出LRU列表的非髒數據塊緩衝區,而且排列在LRU列表的頭部,若是這些非髒數據緩衝區寫完也不能知足新數據的請求時,會當即觸發DBWN進程將髒數據列表中指向的緩衝塊寫入數據文件,而且清洗掉這些緩衝區,來騰出空間緩衝新讀入的數據,也就是在放入DB BUFFER以前也是要先申請DB BUFFER中的鎖存器,成功鎖定後,再寫入DB BUFFER,而後服務器程將該語句影響的被讀入DB BUFFER塊中的這些行的ROWID及將要更新的原值和新值及SCN等信息逐條的寫入REDO LOG BUFFER,在寫入REDO LOG BUFFER以前也是先請求REDO LOG BUFFER塊的鎖存器,成功鎖定以後纔開始寫入,當寫入達到REDO LOG BUFFER大小的三分之一或寫入量達到1M或超過三秒後或發生檢查點時或者DBWN以前發生,LGWR將把REDO LOG BUFFER中的數據寫入磁盤上的重作日誌文件,已被寫入重作日誌文件的REDO LOG BUFFER中的塊上的鎖存器被釋放,並可被後來寫入的信息所覆蓋,REDO LOG BUFFER以循環的方式工做。當一個重作日誌文件寫滿後,LGWR將切換到下一個重作日誌文件,若是是歸檔模式,歸檔進程還將前一個寫滿的重作日誌進程寫入歸檔日誌文件,重作日誌文件也是循環工做方式。寫完全部的REDO LOG BUFFER以後,服務器進程開始改寫這個DB BUFFER塊頭部的事務列表並寫入SCN,而後COPY包含這個塊的頭部事務列表及SCN信息的數據副本放入回滾段中,咱們將回滾段中的副本稱爲數據塊的「前映像」。(回滾段能夠存儲在專門的回滾表空間中,這個表空間由一個或多個物理文件組成,並專用於回滾表空間,回滾段也可在其它表空間中的數據文件中開闢。)而後改寫這個DB BUFFER塊的數據,並在其頭部寫入對應的回滾段地址,若是對一行數據屢次UPDATE而不COMMIT則在回滾段中將會有多個「前映像」,除第一個「前映像」含有SCN信息外,其它的每一個「前映像」的頭部還含有SCN信息和「前前映像」的回滾段地址。一次UPDATE操做只對應一個SCN。而後服務器進程在髒數據列表中創建一條指向此緩衝塊的指針。接着服務器進程會從數據文件讀入第二個塊重複以上讀入,記日誌,創建回滾段,修改,放入髒列表的動做,當髒數據列表達到必定長度時,DBWN進程將髒數據列表中指向的緩衝塊所有寫入數據文件,也就是釋放加在這些DB BUFER 塊上的鎖存器。其實ORACLE能夠一次從數據文件中讀入幾個塊放入DB BUFFER,能夠經過參數DB_FILE_MULTIBLOCK_READ_COUNT來設置一次讀入的塊的個數。 若是要查找的數據已緩存,則根據用戶的SQL操做類型決定如何操做,若是是SELECT 則查看DB BUFFER塊的頭部是否有事務,若是有,將從回滾段讀取,若是沒有則比較SELECT 的SCN與DB BUFFER塊頭部的SCN若是比本身大,仍然從回滾段讀取,若是比本身小則認這是一個非髒緩存,能夠直接從這個DB BUFFER塊中讀取。若是是UPDATE則即便在DB BUFFER中找到一個沒有事務,並且SCN比本身小的非髒緩存數據塊,服務器進程仍然要到表的頭部對這條記錄申請加鎖,加鎖成功則進行後續動做,若是不成功,則要等待前面的進程解鎖後才能進行動做。大數據
只有當SQL語句影響的全部行所在的最後一個塊被讀入DB BUFFER而且重作信息被寫入REDO LOG BUFFER(僅是指重作日誌緩衝,而非重作日誌文件)以後,用戶才能夠發出COMMIT,COMMIT觸發LGRW,但並不強制當即DBWN來釋放全部相應的DB BUFFER塊上的鎖,也就是說有可能出現已COMMIT,但在隨後的一段時間內DBWN還在寫這條語句涉及的數據塊的情形,表頭部的行鎖,並非在COMMIT一發出就立刻釋放,實際上要等到相應的DBWN進程結束纔會釋放。一個用戶請求鎖定另外一個用戶已COMMIT的資源不成功的機會是存在的,從COMMIT到DBWN進程結束之間的時間很短,若是恰巧在這個時間斷電,因爲COMMIT已觸發LGWR進程,因此這些將來得及寫入數據文件的改變會在實例重啓後由SMON進程根據重作日誌文件來前滾。若是未COMMIT就斷電,因爲DBWN以前觸發LGWR,全部DBWN在數據文件上的修改都會被先一步記入重作日誌文件,實例重啓後,SMON進程再根據重作日誌文件來回滾。 若是用戶ROOLBACK,則服務器進程會根據數據文件塊和DB BUFFER中塊的頭部的事務列表和SCN以及回滾段地址找到回滾段中相應的修改前的副本,而且用這些原值來還原當前數據文件中已修改但未提交的改變。若是有多個「前映像」,服務器進程會在一個「前映像」的頭部找到「前前映像」的回滾段地址,一直找到同一事務下的最先的一個「前映像」爲止。一旦發出了COMMIT,用戶就不能ROOLBACK,這使得COMMIT後DBWN進程尚未所有完成的後續動做獲得了保障。優化
ORACLE工做原理3-檢查點spa
下面咱們要提到檢查點的做用,當一個所有檢查點發生的時候,首先讓LGWR進程將REDO LOG BUFFER中的全部緩衝(包含未提交的重作信息)寫入重作日誌文件,而後讓DBWN進程將DB BUFFER中全部已提交的緩衝寫入數據文件(不強制寫未提交的)。而後更新控制文件和數據文件頭部的SCN,代表當前數據庫是一致的,若是在發生檢點以前斷電,而且當時有一個未提交的改變正在進行,實例重啓以後,SMON進程將從上一個檢查點開始覈對這個檢查點以後記錄在重作日誌文件中已提交的和未提交改變,由於DBWN以前會觸發LGWR,因此DBWN對數據文件的修改必定會被先記錄在重作日誌文件中。所以,斷電前被DBWN寫進數據文件的改變將經過重作日誌文件中的記錄進行還原,叫作回滾,若是斷電時有一個已提交,但DBWN動做尚未徹底完成的改變存在,由於已經提交,提交會觸發LGWR進程,因此無論DBWN動做是否已完成,該語句將要影響的行及其產生的結果必定已經記錄在重作日誌文件中了,則實例重啓後,SMON進程根據重作日誌文件進行前滾。因而可知,實例失敗後用於恢復的時間由兩個檢查點之間的間隔大小來決定,咱們能夠通個四個參數設置檢查點執行的頻率,LOG_CHECKPOINT_IMTERVAL決定了兩個檢查點之間寫入重作日誌文件的系統物理塊的大小,LOG_CHECKPOINT_TIMEOUT決定了兩個檢查點之間的時間長度,FAST_START_IO_TARGET決定了用於恢復時須要處理的塊的大小,FAST_START_MTTR_TARGET直接決定了用於恢復的時間的長短。SMON進程執行的前滾和回滾與用戶的回滾是不一樣的,SMON是根據重作日誌文件進行前滾或回滾,而用戶的回滾必定是根據回滾段的內容進行回滾的。在這裏咱們要說一下回滾段存儲的數據,假如是delete操做,則回滾段將會記錄整個行的數據,假如是update,則回滾段只記錄被修改了的字段的變化前的數據(前映像),也就是沒有被修改的字段是不會被記錄的,假如是insert,則回滾段只記錄插入記錄的rowid。這樣假如事務提交,那回滾段中簡單標記該事務已經提交;假如是回退,則若是操做是是delete,回退的時候把回滾段中數據從新寫回數據塊,操做若是是update,則把變化前數據修改回去,操做若是是insert,則根據記錄的rowid 把該記錄刪除。指針
ORACLE工做原理4-數據文件
下面咱們要講DBWN如何來寫數據文件,在寫數據文件前首先要找到可寫的空閒數據塊,ORACLE中空閒數據塊能夠經過FREELIST或BITMAP(10G都是位圖維護)來維護,它們位於一個段的頭部用來標識當前段中哪些數據塊能夠進行INSERT。在本地管理表空間中ORACLE自動管理分配給段的區的大小,區的分配信息存儲在組成表空間的數據文件的頭部,而數據字典管理的表空間用戶能夠在建立時決定區的大小,而且區的分配信息是存儲在數據字典中的,只在本地管理的表空間中才能選用段自動管理,採用自動段空間管理的本地管理表空間中的段中的空閒數據塊的信息就存放在段的頭部而且使用位圖來管理,採用手動管理的本地管理表空間中的段和數據字典管理的表空間中的段中的空閒數據塊的管理都使用位於段頭部的空閒列表來管理,空閒列表的工做方式:首先一個空的數據塊被加入空閒列表,當其中空閒空間小於PCTFREE設置的值以後,這個塊從空閒列表刪除,當這個塊中的內容降至PCTUSED設置的值之下後,這個數據塊被再次加入空閒列表,位於空閒列表中的數據塊都是能夠向其中INSERT的塊,當一個塊移出了空閒列表,但只要其中還有保留空間就能夠進行UPDATE,當對其中一行UPDATE一個大數據時,若是當前塊不能徹底放下整個行,只會把整個行遷移到一個新的數據塊,並在原塊位置留下一個指向新塊的指針,這叫行遷移。若是一個數據塊能夠INSERT,當插入一個當前塊裝不下的行時,這個行會溢出到兩個或兩個几上的塊中,這叫行連接。(行連接比較常見,但要儘可能避免行遷移,這是影響性能的一個重要因素)若是用戶的動做是INSERT 則服務器進程會先鎖定FREELIST,而後找到空閒塊的地址,再釋放FREELIST,當多個服務器進程同時想要鎖定FREELIST時即發生FREELIST的爭用,能夠在非採用自動段空間管理的表空間中建立表時指定FREELIST的個數,默認爲1,若是是在採用自動段空間管理的表空間中建立表,即便指定了FREELIST也會被忽略,由於此時將使用BITMAP而不是FREELIST來管理段中的空閒空間。若是用戶動做是UPDATE服務器進程將不會使用到FREELIST和BITMAP,由於不要去尋找一個空閒塊,而使用鎖的隊列。
ORACLE工做原理5-鎖
下面來說一下ORACLE鎖的機制,ORACLE分鎖存器(LATCH)和鎖(LOCK)兩種。鎖存器是用來保護對內存結構的訪問,好比對DB BUFFER中塊的鎖存器申請,只有在DBWN完成後,這些DB BUFFER塊被解鎖。而後用於其它的申請。鎖存器不能夠在進程間共享,鎖存器的申請要麼成功要麼失敗,沒有鎖存器申請隊列。主要的鎖存器有SHARED POOL鎖存器,LIBRARY CACHE鎖存器,CACHE BUFFERS LRU CHAIN鎖存器,CACHE BUFFERS CHAINS 鎖存器,REDO ALLOCATION 鎖存器,REDO COPY 鎖存器。ORACLE的鎖是用來保護數據訪問的,鎖的限制比鎖存器要更寬鬆,好比,多個用戶在修改同一表的不一樣行時,能夠共享一個表上的一個鎖,鎖的申請能夠按照被申請的順序來排隊等候,而後依次應用,這種排隊機制叫作隊列(ENPUEUE),若是兩個服務器進程試圖對同一表的同一行進行加鎖,則都進入鎖的申請隊列,先進的加鎖成功,後面的進程要等待,直到前一個進程解鎖才能夠加鎖,這叫作鎖的爭用,並且一旦加鎖成功,這個鎖將一直保持到用戶發出COMMIT或ROOLBACK命令爲止。若是兩個用戶鎖定各自的一行並請求對方鎖定的行的時候將發生無限期等待即死鎖,死鎖的發生都是因爲鎖的爭用而不是鎖存器的爭用引發的,ORACLE在遇到死鎖時,自動釋放其中一個用戶的鎖並回滾此用戶的改變。正常狀況下發生鎖的爭用時,數據的最終保存結果由SCN來決定哪一個進程的更改被最終保存。兩個用戶的服務器進程在申請同一表的多個行的鎖的時候是能夠交錯進入鎖的申請隊列的。只有其中發生爭用纔會進行等待。建立表時指定的MAXTRANS參數決了表中的一個數據塊最多能夠被幾個事務同時鎖定。 下面是幾個關於回滾段和死鎖的事例: 有表:Test (id number(10)) 有記錄1000000條 一,大SELECT,小UPDATE A會話----Select * from test;----設scn=101----執行時間09:10:11 B會話-----Update test set id=9999999 where id=1000000----設scn=102-----執行時間09:10:12
咱們會發現B會話會在A會話前完成,A會話中顯示的ID=100000是從回滾段中讀取的,由於A會話在讀到ID=1000000所在的BLOCK時發現BLOCK上有事務信息,所以要從回滾段中讀,若是UPDATE在SELECT讀到此BLOCK以前已經COMMIT,則SELECT 讀到此BLOCK時發現其BLOCK上沒有事務信息,可是會發現其BLICK的SCN比SELECT本身的SCN大,所以也會從回滾段中讀取。所以是否從回滾段讀一是看是否有事務信息二是比較SCN大小。若是B會話在A會話結束前連續屢次對同一條記錄UPDATE並COMMIT,那麼在回滾段中將記錄多個「前映像」,而每一個「前映像」中不但包括了原BLOCK的數據和SCN也記錄了「前前映像」的回滾段地址,所以A會話在查詢到被UPDATE過的BLOCK時,會根據BLOCK記錄的回滾段的地址,找到回滾段中的「前映像」,發現這個「前映像」的SCN也比本身的大,所以將根據這個「前映像」中記錄的「前前映像」的回滾段地址,在回滾段中找到「前前映像」,再與這個「前前映像」比較SCN,若是比本身小就讀取,若是還比本身大,則重複以上步驟,直到找到比本身SCN小的「前„前映像」爲止,若是找不到,就會報ORA-01555快照太舊這個錯誤。 2、大UPDATE,小SELECT A會話----Update test set id=1;----設scn=101----執行時間09:10:11
B會話-----select * from test where id=1000000----設scn=102-----執行時間09:10:12 咱們會發現B會話會在A會話前完成,B會話中顯示的ID=1000000是從BLOCK中直接讀取的,由於B會話在讀到ID=1000000所在的BLOCK時,A會話尚未來得及對其鎖定,所以B會話既不會發現BLOCK上有事務信息,也不會發現BLOCK上的SCN比SELECT的大,所以會從BLOCK中直接讀取,若是SELECT在UPDATE鎖定此BLOCK後才發出,B會話讀到此BLOCK時發現其BLOCK上有事務信息,所以會從回滾段中讀取。 3、大UPDATE,小UPDATE A會話----Update test set id=1;----設scn=101----執行時間09:10:11 B會話1-----Update test set id=999999 where id=1000000----設scn=102-----執行時間09:10:12 B會話2----- select * from test where id=2----設scn=103-----執行時間09:10:14 B會話3----- update test set id=3 where id=2----設scn=104-----執行時間09:10:15
咱們會發現B會話1會完成,A會話將一直等待,由於B會話1會先於A會話鎖定ID=1000000所在的BLOCK,並改寫頭部的事務信息,A會話在試圖鎖定此BLOCK時,發現其上有事務信息,將會一直等待B會話1事務結束後再行鎖定, B會話2查詢到的ID=2是從回滾段中讀取的而不是從BLOCK中直接讀出來的。由於A會話已將ID=2的BLOCK鎖定,並寫入了回滾段,從B會話3能夠證實這一點,B會話3發出後,B會話3會收到死鎖的信息,死鎖的緣由是A會話在等待B會話對ID=1000000所在的BLOCK解鎖,如今B會話又在等待A會話對ID=2所在的BLOCK解鎖,所以造成死鎖,所以證實ID=2所在的BLOCK已被A會話鎖定,而後A會話也會收到死鎖的信息