MySQL InnoDB技術內幕：內存管理、事務和鎖

時間 2020-08-13

標籤 mysql innodb 技術內幕內存管理事務欄目 MySQL 简体版

原文原文鏈接

前面有多篇文章介紹過MySQL InnoDB的相關知識，今天咱們要更深刻一些，看看它們的內部原理和機制是如何實現的。html

1、內存管理

咱們知道，MySQl是一個存儲系統，數據最後都寫在磁盤上。咱們之前也提到過，磁盤的速度特別是大容量的磁盤受磁頭臂的影響，速度相對內存慢不少。因此Innodb實現了本身的緩存機制。前端

首先咱們先看下Innodb對內存是如何使用和劃分的，而後咱們再看看它是如何保存熱數據的。算法

一、主要模塊和組成

(1) Buffer Pool

預分配的內存池sql

(2) Page

Buffer Pool的最小單位緩存

(3) Free list

空閒Page組成的鏈表安全

(4) Flush list

髒頁鏈表併發

(5) Page hash 表

維護內存Page和文件Page的映射關係運維

(6) LRU

內存淘汰算法 post

以上三種鏈表LRU list、Free list、Flush list 和內存池、Page hash 以及磁盤文件之間的映射關係以下圖所示：性能

二、LRU算法

LRU，Least Recent Used，最近最少使用。每次將剛使用過的頁面插到LRU隊列的最前端，那麼最少使用的排在尾端，當緩存不夠時，淘汰尾端的頁。

不少文件系統和開源庫的內存淘汰算法都用到了LRU，之前有很多文章都提到過。

可是LRU的缺陷是，有時會沒法淘汰真正的冷數據，尾端的數據可能暫時沒使用而已，不表明不使用頻繁，不表明不是熱數據。因此不少系統對LRU進行了優化。

好比Redis加了LFU（least frequently used最不常用）配合LRU一塊兒使用。

那麼InnoDB存儲引擎是如何改進的呢？以下圖，它將LRU分紅兩部分，中間的分割點叫作midpoint，新讀取的頁再也不是加入到最頭部，而是midpoint後面的位置，即後半截的頭部。

那麼midpoint的位置是如何計算的呢，在默認配置下，離LRU整個頭部的5/8處。固然這個比例是能夠根據實際業務進行設置的。但總之，能夠真正將冷熱數據分離，熱數據在前，冷數據在後。

那麼這兩個區的數據如何移動的呢，即冷熱數據如何切換的呢？

上面咱們提到了，剛插入的頁放在old區的頭部，那麼若是該頁確實訪問頻繁，不能一直呆在該位置吧。

InnoDB引入了參數innodb_old_blocks_time，若是old區的數據在該時間範圍內沒有被淘汰出去，就能夠移到new區，加入到new區的頭部。這也叫作made young。

而若是在old呆的時間不夠innodb_old_blocks_time，並且緩存不夠時，就會面臨直接淘汰，這就叫作made not young。這種狀況，能夠發生在全表掃描的時候，保證了new區的數據纔是真正的熱數據！

固然數據也有可能從new區移動到old區，只是相對比較簡單了，直接移動midpoint指向的位置便可。即new區的尾巴變成了old區的頭部。

2、事務

一、MySQL事務基本概念

事務特性

A（Atomicity原子性）：所有成功或所有失敗

I（Isolation隔離性）：並行事務之間互不干擾

D（Durability持久性）：事務提交後，永久生效

C（Consistency一致性）：經過AID保證

併發問題

髒讀(Drity Read)：讀取到未提交的數據。中間全部變化的值均可能讀到。

不可重複讀(Non-repeatable read)：兩次讀取結果不一樣。讀取已提交的（不同的值），讀到的值變化數量比髒讀要少。

幻讀(Phantom Read)：select 操做獲得的結果所表徵的數據狀態影響（沒法支撐）後續的業務操做。

網上有人這樣區分，髒讀是讀取修改的數據，幻讀是讀取新提交的數據。我認爲也能夠，或許phantom表示虛幻的新數據（因此沒法支撐後續操做），而drity表明了修改的意思呢？

因此，不可重複讀重點在於update和delete，而幻讀的重點在於insert。

隔離級別

Read Uncommitted（讀取未提交內容）：最低隔離級別，會讀取到其餘事務未提交的數據；存在髒讀的問題。

Read Committed（讀取提交內容）：事務過程當中能夠讀取到其餘事務已提交的數據；存在不可重複讀的問題。

Repeatable Read（可重複讀）：每次讀取相同結果集，無論其餘事務是否提交；存在幻讀的問題。

Serializable（串行化）：事務排隊，隔離級別最高，性能最差。

二、MySQL事務實現原理

從上咱們能夠看出事務有ACID四大特性，而「I」隔離性是經過鎖來實現的，咱們下一節講述。那麼其餘三個特性主要經過undo/redo日誌的機制來實現，這個知識點在前面有一篇文章中介紹和對比過。如今咱們站在事務實現的角度再來看看。

（1）undo log

回滾日誌，顧名思義，是對事務rollback時使用。這是它核心的功能之一，可是它還有另外一個很是重要的功能，MVCC。因此今天這裏主要介紹它是如何在事務中發揮做用的。

　　MVCC

Multiversion concurrency control，多版本併發控制。當用戶讀取一行時，若是該記錄已經被其餘事務佔用，當前事務能夠經過undo讀取以前的行版本信息（快照數據），以此實現非鎖定讀。因此實現了非阻塞的讀操做，寫操做也只鎖定必要的行。即解決讀-寫衝突。

快照數據就是當前行數據的歷史版本，每行記錄可能含有多個版本。那該讀取哪一個版本呢？

首先，InnoDB的每行記錄或者說每條數據，除了記錄用戶定義的列以外，還有兩個隱藏的列：事務ID列DB_TRX_ID和回滾指針DB_ROLL_PTR。若是該表沒有定義主鍵，每行還會增長一個rowid列。DB_TRX_ID是當時執行這條sql的事務id，DB_ROLL_PTR指向的就是undo log中修改前的行DB_ROW_ID。因此對同一條數據的修改，經過roll_pointer就造成了undo log版本鏈。

而後咱們再來介紹下Read View快照讀。

通常狀況下讀取數據時會生成一個Read View，對當前該行的可能正在進行的事務進行一個快照。

Read View中主要包含4個比較重要的內容：