08 | 事務究竟是隔離的仍是不隔離的?

我在第3篇文章和你講事務隔離級別的時候提到過,若是是可重複讀隔離級別,事務T啓動的時候會建立一個視圖read-view,以後事務T執行期間,即便有其餘事務修改了數據,事務T看到的仍然跟在啓動時看到的同樣。也就是說,一個在可重複讀隔離級別下執行的事務,好像與世無爭,不受外界影響。mysql

可是,我在上一篇文章中,和你分享行鎖的時候又提到,一個事務要更新一行,若是恰好有另一個事務擁有這一行的行鎖,它又不能這麼超然了,會被鎖住,進入等待狀態。問題是,既然進入了等待狀態,那麼等到這個事務本身獲取到行鎖要更新數據的時候,它讀到的值又是什麼呢?sql

我給你舉一個例子吧。下面是一個只有兩行的表的初始化語句。數組

mysql> CREATE TABLE `t` (
`id` int(11) NOT NULL,
`k` int(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB;
insert into t(id, k) values(1,1),(2,2);

圖1 事務A、B、C的執行流程

這裏,咱們須要注意的是事務的啓動時機。翻譯

begin/start transaction 命令並非一個事務的起點,在執行到它們以後的第一個操做InnoDB表的語句(第一個快照讀語句),事務才真正啓動。若是你想要立刻啓動一個事務,可使用start transaction with consistent snapshot 這個命令。3d

還須要注意的是,在整個專欄裏面,咱們的例子中若是沒有特別說明,都是默認autocommit=1。日誌

在這個例子中,事務C沒有顯式地使用begin/commit,表示這個update語句自己就是一個事務,語句完成的時候會自動提交。事務B在更新了行以後查詢; 事務A在一個只讀事務中查詢,而且時間順序上是在事務B的查詢以後。code

這時,若是我告訴你事務B查到的k的值是3,而事務A查到的k的值是1,你是否是感受有點暈呢?blog

因此,今天這篇文章,我其實就是想和你說明白這個問題,但願藉由把這個疑惑解開的過程,可以幫助你對InnoDB的事務和鎖有更進一步的理解。事務

在MySQL裏,有兩個「視圖」的概念:開發

  • 一個是view。它是一個用查詢語句定義的虛擬表,在調用的時候執行查詢語句並生成結果。建立視圖的語法是create view ... ,而它的查詢方法與表同樣。
  • 另外一個是InnoDB在實現MVCC時用到的一致性讀視圖,即consistent read view,用於支持RC(Read Committed,讀提交)和RR(Repeatable Read,可重複讀)隔離級別的實現。

它沒有物理結構,做用是事務執行期間用來定義「我能看到什麼數據」。

在第3篇文章《事務隔離:爲何你改了我還看不見?》中,我跟你解釋過一遍MVCC的實現邏輯。今天爲了說明查詢和更新的區別,我換一個方式來講明,把read view拆開。你能夠結合這兩篇文章的說明來更深一步地理解MVCC。

「快照」在MVCC裏是怎麼工做的?

在可重複讀隔離級別下,事務在啓動的時候就「拍了個快照」。注意,這個快照是基於整庫的。

這時,你會說這看上去不太現實啊。若是一個庫有100G,那麼我啓動一個事務,MySQL就要拷貝100G的數據出來,這個過程得多慢啊。但是,我平時的事務執行起來很快啊。

實際上,咱們並不須要拷貝出這100G的數據。咱們先來看看這個快照是怎麼實現的。

InnoDB裏面每一個事務有一個惟一的事務ID,叫做transaction id。它是在事務開始的時候向InnoDB的事務系統申請的,是按申請順序嚴格遞增的。

而每行數據也都是有多個版本的。每次事務更新數據的時候,都會生成一個新的數據版本,而且把transaction id賦值給這個數據版本的事務ID,記爲row trx_id。同時,舊的數據版本要保留,而且在新的數據版本中,可以有信息能夠直接拿到它。

也就是說,數據表中的一行記錄,其實可能有多個版本(row),每一個版本有本身的row trx_id。

如圖2所示,就是一個記錄被多個事務連續更新後的狀態。

圖2 行狀態變動圖

圖中虛線框裏是同一行數據的4個版本,當前最新版本是V4,k的值是22,它是被transaction id 爲25的事務更新的,所以它的row trx_id也是25。

你可能會問,前面的文章不是說,語句更新會生成undo log(回滾日誌)嗎?那麼,undo log在哪呢?

實際上,圖2中的三個虛線箭頭,就是undo log;而V一、V二、V3並非物理上真實存在的,而是每次須要的時候根據當前版本和undo log計算出來的。好比,須要V2的時候,就是經過V4依次執行U三、U2算出來。

明白了多版本和row trx_id的概念後,咱們再來想一下,InnoDB是怎麼定義那個「100G」的快照的。

按照可重複讀的定義,一個事務啓動的時候,可以看到全部已經提交的事務結果。可是以後,這個事務執行期間,其餘事務的更新對它不可見。

所以,一個事務只須要在啓動的時候聲明說,「以我啓動的時刻爲準,若是一個數據版本是在我啓動以前生成的,就認;若是是我啓動之後才生成的,我就不認,我必需要找到它的上一個版本」。

固然,若是「上一個版本」也不可見,那就得繼續往前找。還有,若是是這個事務本身更新的數據,它本身仍是要認的。

在實現上, InnoDB爲每一個事務構造了一個數組,用來保存這個事務啓動瞬間,當前正在「活躍」的全部事務ID。「活躍」指的就是,啓動了但還沒提交。

數組裏面事務ID的最小值記爲低水位,當前系統裏面已經建立過的事務ID的最大值加1記爲高水位。

這個視圖數組和高水位,就組成了當前事務的一致性視圖(read-view)。

而數據版本的可見性規則,就是基於數據的row trx_id和這個一致性視圖的對比結果獲得的。

這個視圖數組把全部的row trx_id 分紅了幾種不一樣的狀況。

圖3 數據版本可見性規則

這樣,對於當前事務的啓動瞬間來講,一個數據版本的row trx_id,有如下幾種可能:

  1. 若是落在綠色部分,表示這個版本是已提交的事務或者是當前事務本身生成的,這個數據是可見的;

  2. 若是落在紅色部分,表示這個版本是由未來啓動的事務生成的,是確定不可見的;

  3. 若是落在黃色部分,那就包括兩種狀況
    a. 若 row trx_id在數組中,表示這個版本是由還沒提交的事務生成的,不可見;
    b. 若 row trx_id不在數組中,表示這個版本是已經提交了的事務生成的,可見。

好比,對於圖2中的數據來講,若是有一個事務,它的低水位是18,那麼當它訪問這一行數據時,就會從V4經過U3計算出V3,因此在它看來,這一行的值是11。

你看,有了這個聲明後,系統裏面隨後發生的更新,是否是就跟這個事務看到的內容無關了呢?由於以後的更新,生成的版本必定屬於上面的2或者3(a)的狀況,而對它來講,這些新的數據版本是不存在的,因此這個事務的快照,就是「靜態」的了。

因此你如今知道了,InnoDB利用了「全部數據都有多個版本」的這個特性,實現了「秒級建立快照」的能力。

接下來,咱們繼續看一下圖1中的三個事務,分析下事務A的語句返回的結果,爲何是k=1。

這裏,咱們不妨作以下假設:

  1. 事務A開始前,系統裏面只有一個活躍事務ID是99;

  2. 事務A、B、C的版本號分別是100、10一、102,且當前系統裏只有這四個事務;

  3. 三個事務開始前,(1,1)這一行數據的row trx_id是90。

這樣,事務A的視圖數組就是[99,100], 事務B的視圖數組是[99,100,101], 事務C的視圖數組是[99,100,101,102]。

爲了簡化分析,我先把其餘干擾語句去掉,只畫出跟事務A查詢邏輯有關的操做:

圖4 事務A查詢數據邏輯圖

從圖中能夠看到,第一個有效更新是事務C,把數據從(1,1)改爲了(1,2)。這時候,這個數據的最新版本的row trx_id是102,而90這個版本已經成爲了歷史版本。

第二個有效更新是事務B,把數據從(1,2)改爲了(1,3)。這時候,這個數據的最新版本(即row trx_id)是101,而102又成爲了歷史版本。

你可能注意到了,在事務A查詢的時候,其實事務B尚未提交,可是它生成的(1,3)這個版本已經變成當前版本了。但這個版本對事務A必須是不可見的,不然就變成髒讀了。

好,如今事務A要來讀數據了,它的視圖數組是[99,100]。固然了,讀數據都是從當前版本讀起的。因此,事務A查詢語句的讀數據流程是這樣的:

  • 找到(1,3)的時候,判斷出row trx_id=101,比高水位大,處於紅色區域,不可見;
  • 接着,找到上一個歷史版本,一看row trx_id=102,比高水位大,處於紅色區域,不可見;
  • 再往前找,終於找到了(1,1),它的row trx_id=90,比低水位小,處於綠色區域,可見。

這樣執行下來,雖然期間這一行數據被修改過,可是事務A不論在何時查詢,看到這行數據的結果都是一致的,因此咱們稱之爲一致性讀。

這個判斷規則是從代碼邏輯直接轉譯過來的,可是正如你所見,用於人肉分析可見性很麻煩。

因此,我來給你翻譯一下。一個數據版本,對於一個事務視圖來講,除了本身的更新老是可見之外,有三種狀況:

  1. 版本未提交,不可見;

  2. 版本已提交,可是是在視圖建立後提交的,不可見;

  3. 版本已提交,並且是在視圖建立前提交的,可見。

如今,咱們用這個規則來判斷圖4中的查詢結果,事務A的查詢語句的視圖數組是在事務A啓動的時候生成的,這時候:

  • (1,3)還沒提交,屬於狀況1,不可見;
  • (1,2)雖然提交了,可是是在視圖數組建立以後提交的,屬於狀況2,不可見;
  • (1,1)是在視圖數組建立以前提交的,可見。

你看,去掉數字對比後,只用時間前後順序來判斷,分析起來是否是輕鬆多了。因此,後面咱們就都用這個規則來分析。

更新邏輯

細心的同窗可能有疑問了:事務B的update語句,若是按照一致性讀,好像結果不對哦?

你看圖5中,事務B的視圖數組是先生成的,以後事務C才提交,不是應該看不見(1,2)嗎,怎麼能算出(1,3)來?

圖5 事務B更新邏輯圖

是的,若是事務B在更新以前查詢一次數據,這個查詢返回的k的值確實是1。

可是,當它要去更新數據的時候,就不能再在歷史版本上更新了,不然事務C的更新就丟失了。所以,事務B此時的set k=k+1是在(1,2)的基礎上進行的操做。

因此,這裏就用到了這樣一條規則:更新數據都是先讀後寫的,而這個讀,只能讀當前的值,稱爲「當前讀」(current read)。

所以,在更新的時候,當前讀拿到的數據是(1,2),更新後生成了新版本的數據(1,3),這個新版本的row trx_id是101。

因此,在執行事務B查詢語句的時候,一看本身的版本號是101,最新數據的版本號也是101,是本身的更新,能夠直接使用,因此查詢獲得的k的值是3。

這裏咱們提到了一個概念,叫做當前讀。其實,除了update語句外,select語句若是加鎖,也是當前讀。

因此,若是把事務A的查詢語句select * from t where id=1修改一下,加上lock in share mode 或 for update,也均可以讀到版本號是101的數據,返回的k的值是3。下面這兩個select語句,就是分別加了讀鎖(S鎖,共享鎖)和寫鎖(X鎖,排他鎖)。

mysql> select k from t where id=1 lock in share mode;
mysql> select k from t where id=1 for update;

再往前一步,假設事務C不是立刻提交的,而是變成了下面的事務C’,會怎麼樣呢?

圖6 事務A、B、C'的執行流程

事務C’的不一樣是,更新後並無立刻提交,在它提交前,事務B的更新語句先發起了。前面說過了,雖然事務C’還沒提交,可是(1,2)這個版本也已經生成了,而且是當前的最新版本。那麼,事務B的更新語句會怎麼處理呢?

這時候,咱們在上一篇文章中提到的「兩階段鎖協議」就要上場了。事務C’沒提交,也就是說(1,2)這個版本上的寫鎖還沒釋放。而事務B是當前讀,必需要讀最新版本,並且必須加鎖,所以就被鎖住了,必須等到事務C’釋放這個鎖,才能繼續它的當前讀。

圖7 事務B更新邏輯圖(配合事務C')

到這裏,咱們把一致性讀、當前讀和行鎖就串起來了。

如今,咱們再回到文章開頭的問題:事務的可重複讀的能力是怎麼實現的?

可重複讀的核心就是一致性讀(consistent read);而事務更新數據的時候,只能用當前讀。若是當前的記錄的行鎖被其餘事務佔用的話,就須要進入鎖等待。

而讀提交的邏輯和可重複讀的邏輯相似,它們最主要的區別是:

  • 在可重複讀隔離級別下,只須要在事務開始的時候建立一致性視圖,以後事務裏的其餘查詢都共用這個一致性視圖;
  • 在讀提交隔離級別下,每個語句執行前都會從新算出一個新的視圖。

那麼,咱們再看一下,在讀提交隔離級別下,事務A和事務B的查詢語句查到的k,分別應該是多少呢?

這裏須要說明一下,「start transaction with consistent snapshot; 」的意思是從這個語句開始,建立一個持續整個事務的一致性快照。因此,在讀提交隔離級別下,這個用法就沒意義了,等效於普通的start transaction。

下面是讀提交時的狀態圖,能夠看到這兩個查詢語句的建立視圖數組的時機發生了變化,就是圖中的read view框。(注意:這裏,咱們用的仍是事務C的邏輯直接提交,而不是事務C’)

圖8 讀提交隔離級別下的事務狀態圖

這時,事務A的查詢語句的視圖數組是在執行這個語句的時候建立的,時序上(1,2)、(1,3)的生成時間都在建立這個視圖數組的時刻以前。可是,在這個時刻:

  • (1,3)還沒提交,屬於狀況1,不可見;
  • (1,2)提交了,屬於狀況3,可見。

因此,這時候事務A查詢語句返回的是k=2。

顯然地,事務B查詢結果k=3。

小結

InnoDB的行數據有多個版本,每一個數據版本有本身的row trx_id,每一個事務或者語句有本身的一致性視圖。普通查詢語句是一致性讀,一致性讀會根據row trx_id和一致性視圖肯定數據版本的可見性。

  • 對於可重複讀,查詢只認可在事務啓動前就已經提交完成的數據;
  • 對於讀提交,查詢只認可在語句啓動前就已經提交完成的數據;

而當前讀,老是讀取已經提交完成的最新版本。

你也能夠想一下,爲何表結構不支持「可重複讀」?這是由於表結構沒有對應的行數據,也沒有row trx_id,所以只能遵循當前讀的邏輯。

固然,MySQL 8.0已經能夠把表結構放在InnoDB字典裏了,也許之後會支持表結構的可重複讀。

又到思考題時間了。我用下面的表結構和初始化語句做爲試驗環境,事務隔離級別是可重複讀。如今,我要把全部「字段c和id值相等的行」的c值清零,可是卻發現了一個「詭異」的、改不掉的狀況。請你構造出這種狀況,並說明其原理。

mysql> CREATE TABLE `t` (
`id` int(11) NOT NULL,
`c` int(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB;
insert into t(id, c) values(1,1),(2,2),(3,3),(4,4);


復現出來之後,請你再思考一下,在實際的業務開發中有沒有可能碰到這種狀況?你的應用代碼會不會掉進這個「坑」裏,你又是怎麼解決的呢?

你能夠把你的思考和觀點寫在留言區裏,我會在下一篇文章的末尾和你討論這個問題。感謝你的收聽,也歡迎你把這篇文章分享給更多的朋友一塊兒閱讀。

上期問題時間

我在上一篇文章最後,留給你的問題是:怎麼刪除表的前10000行。比較多的留言都選擇了第二種方式,即:在一個鏈接中循環執行20次 delete from T limit 500。

確實是這樣的,第二種方式是相對較好的。

第一種方式(即:直接執行delete from T limit 10000)裏面,單個語句佔用時間長,鎖的時間也比較長;並且大事務還會致使主從延遲。

第三種方式(即:在20個鏈接中同時執行delete from T limit 500),會人爲形成鎖衝突。

相關文章
相關標籤/搜索