做者介紹:易固武,騰訊高級工程師,參與騰訊帳號安全建設,騰訊數據倉庫(TDW)優化改造,騰訊雲數據庫等項目,對大規模分佈式存儲和計算系統有濃厚的興趣和經歷html
MySQL數據庫是目前開源應用最大的關係型數據庫,有海量的應用將數據存儲在MySQL數據庫中。存儲數據的安全性和可靠性是生產數據庫的關注重點。本文分析了目前採用較多的保障MySQL可用性方案。node
MySQL Replication是MySQL官方提供的主從同步方案,用於將一個MySQL實例的數據,同步到另外一個實例中。Replication爲保證數據安全作了重要的保證,也是如今運用最廣的MySQL容災方案。Replication用兩個或以上的實例搭建了MySQL主從複製集羣,提供單點寫入,多點讀取的服務,實現了讀的scale out。 圖1. MySQL Replication主從複製集羣mysql
如圖一所示,一個主實例(M),三個從實例(S),經過replication,Master生成event的binlog,而後發給slave,Slave將event寫入relaylog,而後將其提交到自身數據庫中,實現主從數據同步。對於數據庫之上的業務層來講,基於MySQL的主從複製集羣,單點寫入Master,在event同步到Slave後,讀邏輯能夠從任何一個Slave讀取數據,以讀寫分離的方式,大大下降Master的運行負載,同時提高了Slave的資源利用。sql
對於高可用來講,MySQL Replication有個重要的缺陷:數據複製的時延。在一般狀況下,MySQL Replication數據複製是異步的,便是MySQL寫binlog後,發送給Slave並不等待Slave返回確認收到,本地事務就提交了。一旦出現網絡延遲或中斷,數據延遲發送到Slave側,主從數據就會出現不一致。在這個階段中,Master一旦宕機,未發送到Slave的數據就丟失了,沒法作到數據的高可用。數據庫
爲了解決這個問題,google提供瞭解決方案:半同步和同步複製。在數據異步複製的基礎之上,作了一點修改。半同步複製是Master等待event寫入Slave的relay後,再提交本地,保證Slave必定收到了須要同步的數據。同步複製不不只是要求Slave收到數據,還要求Slave將數據commit到數據庫中,從而保證每次的數據寫入,主從數據都是一致的。安全
基於半同步和同步複製,MySQL Replication的高可用獲得了質的提高,特別是同步複製。基於同步複製的MySQL Replication集羣,每一個實例讀取的數據都是一致的,不會存在Slave幻讀。同時,Master宕機後,應用程序切換到任何一個Slave均可以保證讀寫數據的一致性。可是,同步複製帶來了重大的性能降低,這裏須要作一個折衷。另外,MySQL Replication的主從切換須要人工介入判斷,同時須要Slave的replaylog提交完畢,故障恢復時間會比較長。網絡
MySQL Fabric是MySQL社區提供的管理多個MySQL服務的擴展。高可用是它設計的主要特性之一。架構
Fabric將兩個及以上的MySQL實例劃分爲一個HA Group。其中的一個是主,其他的都是從。HA Group保證訪問指定HA Group的數據老是可用的。其基礎的數據複製是基於MySQL Replication,而後,Fabric提供了更多的特性:負載均衡
失效檢測和恢復:Fabric監控HA Group中的主實例,一旦發現主實例失效,Fabric會從HA Group中剩餘的從實例中選擇一個,並將其提高爲主實例。運維
讀寫均衡:Fabric能夠自動的處理一個HA Group的讀寫操做,將寫操做發送給主實例,而讀請求在多個從實例之間作負載均衡。 圖2. Fabric
MHA(MySQL-master-ha)是目前普遍使用的MySQL主從複製的高可用方案。MHA設計目標是自動實現主實例宕機後,從機切換爲主,並儘可能下降切換時延(一般在10-30s內切換完成)。同時,由MHA保證在切換過程當中的數據一致性。MHA對MySQL的主從複製集羣很是友好,沒有對集羣作任何侵入性的修改。
MHA的一個重點特性是:在主實例宕機後,MHA能夠自動的判斷主從複製集羣中哪一個從實例的relaylog是最新的,並將最新從實例的差別log「應用」到其他的從實例中,從而保證每一個實例的數據一致。一般狀況下,MHA須要10s左右檢測主實例異常,並將主實例關閉從而避免腦裂。而後再用10s左右將差別的log event同步,並啓用新的Master。整個MHA的RTO時間大約在30s。
MySQL Cluster是一個高度可擴展的,兼容ACID事務的實時數據庫,基於分佈式架構不存在單點故障,MySQL Cluster支持自動水平擴容,並能作自動的讀寫負載均衡。
MySQL Cluster使用了一個叫NDB的內存存儲引擎來整合多個MySQL實例,提供一個統一的服務集羣。如圖三所示。 圖3. MySQL Cluster組成
MySQL Cluster由SQL Nodes,DataNodes,和NDB Management Server組成。SQL Nodes是應用程序的接口,像普通的mysqld服務同樣,接受用戶的SQL輸入,執行並返回結果。Data Nodes是數據存儲節點,NDB Management Server用來管理集羣中的每一個node。
MySQL Cluster採用了新的數據分片和容錯的方式來實現數據安全和高可用。其由Partition,Replica,Data Node,Node Group構成。
Partition:NDB一張表的一個數據分片,包含一張表的一部分數據。
Replica:一個Partition的拷貝。一個Partition能夠有一個或多個Replica,一個Partition的全部Replica數據都是一致的。
Data Node:Replica的存儲載體,每一個Node存儲一個或多個Replica。
Node Group:一個Data Node的集合。 圖4. MySQL Cluster數據高可用
一個MySQL Cluster有4個Node,被分爲了兩個Grou。Node1和2歸屬於Group0,Node3和4歸屬於Group1,。有一張表被分爲4個Partition,並分別有兩個Replica。Partition0和Partition2的兩個Replica,分別存儲在Node1和Node2上,Pratition1和Partition3的兩個Replica分別存在Node3和Node4上。這樣,對於一張表的一個Partition來講,在整個集羣有兩份數據,並分佈在兩個獨立的Node上,實現了數據容災。同時,每次對一個Partition的寫操做,都會在兩個Replica上呈現,若是Primary Replica異常,那麼Backup Replica能夠當即提供服務,實現數據的高可用。
本文分析了目前MySQL使用較多的幾種MySQL數據複製和高可用方案,從使用來看,MySQL Replication是使用最爲普遍的數據複製方案,由於是MySQL原生支持,針對其在不一樣場景下的一些缺陷,衍生出了半同步複製,強同步複製等數據高可用的方案。在此基礎之上,爲了運維方便,MySQL Fabric和MHA應運而生,從不一樣的方向解決了主從切換時數據一致性問題和流程自動化的問題。此外,隨着分佈式系統架構和方案的逐步成熟。MySQL Cluster設計了全新的分佈式架構,採用多副本,Sharding等特性,支持水平擴展,作到了5個9的數據庫服務質量保證。
參考文獻 1.http://dev.mysql.com/doc/refman/5.7/en/mysql-cluster.html 2.https://code.google.com/p/mysql-master-ha/ 3.https://www.mysql.com/products/enterprise/fabric.html