MySQL InnoDB MVCC深度分析

時間 2019-11-18

原文原文鏈接

關於MySQL的InnoDB的MVCC原理，不少朋友都能說個大概：html

每行記錄都含有兩個隱藏列，分別是記錄的建立時間與刪除時間mysql

每次開啓事務都會產生一個全局自增IDgit

在RR隔離級別下github

INSERT -> 記錄的建立時間 = 當前事務ID，刪除時間 = NULLsql

DELETE -> 記錄的建立時間不動，刪除時間 = 當前事務ID安全

UPDATE -> 將記錄複製一次mvc

　　　　　　　　老記錄的建立時間不動，刪除時間 = 當前事務ID優化

　　　　　　　　新記錄的建立時間 = 當前事務ID，刪除時間 = NULLthis

SELECT -> 返回的記錄須要知足兩個條件：.net

　　　　　　　　建立時間 <= 當前事務ID (記錄是在當前事務以前或者由當前事務建立的）

　　　　　　　　刪除時間 == NULL || 刪除時間 > 當前事務ID （記錄是在當前事務以後被刪除的）

但實際上，這個描述是很不嚴格的，問題有如下幾點：

1. 每條記錄含有的隱藏列不是兩個而是三個

它們分別是：

DB_TRX_ID, 6byte, 建立這條記錄/最後一次更新這條記錄的事務ID

DB_ROLL_PTR, 7byte，回滾指針，指向這條記錄的上一個版本（存儲於rollback segment裏）

DB_ROW_ID, 6byte，隱含的自增ID，若是數據表沒有主鍵，InnoDB會自動以DB_ROW_ID產生一個聚簇索引

另外，每條記錄的頭信息（record header）裏都有一個專門的bit（deleted_flag）來表示當前記錄是否已經被刪除

2. 記錄的歷史版本是放在專門的rollback segment裏（undo log）

　　UPDATE非主鍵語句的效果是

　　　　老記錄被複制到rollback segment中造成undo log，DB_TRX_ID和DB_ROLL_PTR不動

　　　　新記錄的DB_TRX_ID = 當前事務ID，DB_ROLL_PTR指向老記錄造成的undo log

　　　　這樣就能經過DB_ROLL_PTR找到這條記錄的歷史版本。若是對同一行記錄執行連續的update操做，新記錄與undo log會組成一個鏈表，遍歷這個鏈表能夠看到這條記錄的變遷）

3. MySQL的一致性讀，是經過一個叫作read view的結構來實現的

read_view中維護了系統中活躍事務集合的快照，這些活躍事務ID的最小值爲up_limit_id，最大值爲low_limit_id（不要搞反了！！！）

附上源碼註釋以便於理解

trx_id_t low_limit_id; // The read should not see any transaction with trx id >= this value. In other words, this is the "high water mark".
trx_id_t up_limit_id; // The read should see all trx ids which are strictly smaller (<) than this value. In other words, this is the "low water mark".

SELECT操做返回結果的可見性是由如下規則決定的：

DB_TRX_ID < up_limit_id -> 此記錄的最後一次修改在read_view建立以前，可見

DB_TRX_ID > low_limit_id -> 此記錄的最後一次修改在read_view建立以後，不可見 -> 須要用DB_ROLL_PTR查找undo log(此記錄的上一次修改)，而後根據undo log的DB_TRX_ID再計算一次可見性

up_limit_id <= DB_TRX_ID <= low_limit_id -> 須要進一步檢查read_view中是否含有DB_TRX_ID

　　　　DB_TRX_ID ∉ read_view -> 此記錄的最後一次修改在read_view建立以前，可見

　　　　DB_TRX_ID ∈ read_view -> 此記錄的最後一次修改在read_view建立時還沒有保存，不可見 -> 須要用DB_ROLL_PTR查找undo log(此記錄的上一次修改)，而後根據undo log的DB_TRX_ID再從頭計算一次可見性

通過上述規則的決議，咱們獲得了這條記錄相對read_view來講，可見的結果。

此時，若是這條記錄的delete_flag爲true，說明這條記錄已被刪除，不返回。

　　　若是delete_flag爲false，說明此記錄能夠安全返回給客戶端