運維自動化來源於工做中的痛點,京東數據庫團隊面對的是商城成千上萬的研發工程師,這種壓力推進咱們不斷變革,然而變革不是一蹴而就,也經歷過從手工到腳本化、自動化、平臺化、智能化的艱難轉變,因此說是需求在驅動運維體系的建設,而運維自動化的真諦在於解放運維人員,促進人率提高,減小人爲故障,要學會培養本身「懶」這個好習慣。京東的自動化運維體系建設始於2012年,下面從兩個方面進行介紹。
1. 京東數據庫智能運維平臺
京東業務每一年都在以爆發的形式在增加,數據庫服務器的數量衆多,產品線也多達上千條,要支持如此龐大的業務體系,須要一套完善的運維自動化管理平臺。目前京東MySQL數據庫管理平臺簡稱DBS,主要涵蓋如下內容:完善的資產管理系統、數據庫流程管理系統、數據庫監控系統、數據庫故障管理系統、數據庫報表系統、彈性數據庫系統以及數據庫輔助運維工具,涉及DBA運維的方方面面,實現了DBA對MySQL的自動化、自助化、可視化、智能化、服務化管理,避免DBA因手工操做失誤帶來的生產事故,保障京東數據庫的安全、穩定、高效運行。這裏着重介紹如下部分核心功能組件。
前端
1.1. 元數據管理
做爲自動化運維的基石,它的準確性直接關係到整個數據庫管理平臺的可靠性。京東數據庫管理平臺從數據庫業務方、DBA的運維習慣等方面出發,涵蓋機房、主機、業務、集羣、實例、庫、表等多個維度。
機房和主機維度:主要記錄硬件方面的信息。
業務維度:主要記錄業務的名稱、等級及業務部門相關信息。
集羣維度:主要記錄MySQL集羣架構信息。
實例維度:主要記錄MySQL的相關參數,爲後續自動化運維提供保障。
庫維度:主要記錄數據庫名稱及業務人員聯繫信息。
python
1.2. 自動化部署
面對繁雜的數據庫新增,擴容等運維工做,利用自動安裝部署平臺能夠完全解放DBA。目前京東的自動化部署系統包含申請服務器,部署數據庫實例,同步數據,一致性校驗,拆分及切換等操做,整個過程流程化,包含各級業務及DBA的操做審批,最終達到全面的MySQL服務的自動化和流程化部署,以下圖 。算法
主要功能點包含如下內容:
安裝部署MySQL實例,架構搭建,域名申請。分配規則要求同一集羣主從實例不能在同一機櫃,硬件性能好的主機優先爲主庫。
監控部署,備份部署,資產註冊。
MySQL服務採用鏡像的形式建立,鏡像依賴於k8s的鏡像倉庫。
應用帳號是應用方經過自動化上線系統申請建立的。
主從數據一致性校驗,一般會選擇夜間業務低峯期定時執行。
1.3. 智能分析與診斷
京東的智能分析與診斷涵蓋4部分重要的內容,數據庫監控指標採集,診斷分析,故障自愈,趨勢分析。
1.3.1 監控系統
監控系統爲數據庫管理提供了精準的數據依據,可以讓運維人員對生產服務系統運行狀況瞭如指掌,核心的監控指標包含:OS負載,MySQL核心指標,數據庫日誌等。經過分析得到的監控信息,判斷被監控數據庫的運行狀態,對可能出現的問題進行預測,並給出優化方案,保證整個系統穩定、高效。
京東的分佈式監控系統採用被動模式,server端和proxy端均作高可用,防止單點故障。如下是總體架構和流程圖:
數據庫
1.3.2 監控性能分析
數據庫性能智能分析,主要是對數據庫監控數據的二次分析,排除安全隱患。在實際的生產中,有些隱患沒有達到設置的報警閾值,處於一個報警的臨界點,其實這種狀況是最危險的,隨時可能爆發,爲解決這些隱患,咱們經過對監控數據的環比、同比、TOP指標等方面進行分組彙總分析,提早發現隱患。
慢SQL分析
索引分析
空間分析及預測
鎖分析
1.3.3 故障自愈
故障出現的形態千奇百怪,而最核心的內容依賴於監控的輔助分析,如何提供最爲精準的信息,所作內容以下:
告警過濾:將告警中不重要的告警以及重複告警過濾掉
生成派生告警:根據關聯關係生成各種派生告警
告警關聯:同一個時間窗內不一樣類型派生告警是否存在關聯
權重計算:根據預先設置的各種告警的權重,計算成爲根源告警的可能性
生成根源告警:將權重最大的派生告警標記爲根源告警
根源告警合併:若多類告警計算出的根源告警相同,則將其合併
1.4. 智能切換系統
京東數據庫服務器的量級較大,會致使出故障的機率相對提升,同時對系統穩定性的要求也較爲苛刻。所以爲確保實現數據庫高可用,保證7*24小時的持續服務,咱們團隊自主研發了數據庫自動切換平臺,實現了自動和半自動兩種切換方式,實現了按單集羣級別、多集羣級別、機房級別等多維度的場景切換。切換過程包含監控的修改、資產信息的修改、備份策略的修改、主從角色的修改等,一鍵化完成,避免人爲因素帶來的二次故障。
1.4.1 分佈式檢測
做爲切換系統的核心組件,分佈式檢測功能主要解決系統容災方面的問題。按照京東數據庫服務器多數據中心部署的特徵,獨立的數據中心各部署了一個檢測節點,並經過特殊標識的接口域名區分。當發生切換操做時,切換系統會根據傳入的故障主機IP等信息,隨機選取兩個機房接口執行調用,探活操做若是發現有一個節點主機存活,那麼認爲主機存活,若是發現兩個節點都探測爲宕機,那麼認爲主機宕機。
1.4.2 Master故障切換
主庫實例故障,切換系統會首先經過分佈式檢測系統檢查實例存活狀態,確認宕機後將根據基礎信息中的實例切換標識,選擇使用自動切換或手動切換,兩種切換方式原理相同:先在切換系統上建立切換任務,手動切換須要DBA執行切換按鈕,切換操做會經過insert方式插入數據以驗證明例運行狀態,避免實例夯住和硬盤只讀的狀況。若是沒有存活的從庫,則放棄本次操做並以郵件和短信的方式通知DBA。新主庫是按照先本地(先鏈接數少,後QPS負載低),後異地的原則選擇,執行切換成功後將變動相應元數據信息,示例以下:
某一主四從的集羣,主庫 10.66.66.66:3366故障,須要切換,以下:
1.監控系統檢測到主庫宕機,則自動建立切換任務,進行自動切換或者手動切換,以手動切換爲例:
2.選目標實例,假如例子中的4個從都是存活的,那麼根據先本地後異地原則,選出10.66.66.68:3366,10.66.66.69:3366,而後再去查鏈接數,在鏈接數都相同的狀況下,則去比較QPS,選出QPS負載低的10.66.66.69:3366做爲目標實例。
3.切換完成結果
1.4.3 Slave故障切換
從庫實例故障,將故障實例下的域名變動到該集羣下的非故障實例上,選擇目標實例方式與主庫實例選擇規則一致。切換成功或失敗都會發郵件及短信告知相應的DBA。故障實例恢復後,DBA判斷是否須要回切。示例以下:
有一主四從的集羣,從庫 10.88.88.89:3366故障,須要切換,以下:
監控系統會自動建立任務,並根據先本地後異地原則,而後再查鏈接數,QPS,肯定目標實例爲10.88.88.88:3366,進行自動切換,DBA可在切換任務列表查看詳情。
切換成功的任務會顯示回切按鈕,DBA能夠執行回切,並查看回切的具體信息。
1.4.4 主從計劃性切換
主從計劃性切換實現了按單集羣,多集羣的批量切換。執行批量切換時能夠查看子任務切換的具體步驟,切換後會有先後架構的對比,具體示例以下:
集羣1
緩存
批量建立任務,選擇原則根據先本地後異地,先鏈接數後QPS,10.66.66.66:3366選擇目標主庫爲:10.88.88.89:3366。
批量執行切換
切換子任務詳細信息,可查看到每一個子任務的切換結果,執行步驟及先後架構。
安全
京東MySQL數據庫切換系統各功能模塊都已組件化、服務 簡化了DBA的操做流程,縮短了數據庫切換的時間。
1.5. 數據庫自動化備份恢復
1.5.1 架構設計
京東數據庫備份系統在設計之初,就是爲了將DBA從繁雜的備份管理工做中解脫出來,實現自動處理,減小人爲干預,並提升備份文件的可用性。關於備份文件可用性問題,以輪詢恢復的策略確保每一個集羣在一個週期內都被恢復到。系統架構設計以下圖所示:
服務器
架構具有如下幾個特色:
1) 調度觸發多樣化:
調度中心支持三種類型的觸發方式interval、crontab和date。
interval是週期調度,能夠指定固定間隔時長的任務調度,支持時間單位有weeks、days、hours、minutes、seconds,並支持設定調度開始時間和結束時間以及時區設置。
crontab是定時調度,與Linux的crontab基本相同,支持year、month、day、week、day_of_week、hour、minute、second,而且支持設置調度開始時間和結束時間以及時區設置。
date是一次性定時調度,支持時區設置。
2) 併發控制:
因爲調度任務設置具備不均衡性,可能某一時刻須要調度的任務較多,容易引發調度系統出現問題,所以執行任務經過控制併發數來使任務調度執行運行更加平穩。
3) 觸發和執行分層:
任務觸發自己是輕量級集的,而任務執行通常都比較重,所以對觸發和執行進行了分層設計,來防止由於執行時間過長致使後續觸發出現問題。
4) 維護期間任務不丟失:
Linux的crontab在停機維護期間要運行的任務開機後並不會再次執行,而基於APScheduler的調度中心則會在啓動後運行指定間隔內還沒有執行的任務,減小因維護而錯失任務的執行。
5) 備份策略增刪改查:
以前公司的備份系統是須要指定特定的IP,常常由於服務器維護而致使備份失敗,故在設計之初就將備份策略與高可用結合在一塊兒,備份策略指定域名而不是IP。從庫由於故障切換時DBS會將此從庫上的域名切換到集羣內的其餘從庫,相應的備份也跟隨到了此從庫,保證了備份服務器是可用的。
6) 失敗自動重試:
備份極可能由於偶然因素而失敗,所以加入了備份重試的功能,會對6小時之內的備份失敗任務進行備份重試,最多重試3次,來得到更高的備份成功率。
7) 自動恢復檢測:
備份在每一步都要嚴格地驗證,可是也沒法絕對保證備份文件可用,所以引入了自動恢復檢測機制,來幫助DBA對備份文件進行檢測,及時發現由於各類未考慮到的狀況致使備份文件不可用的狀況,而且恢復檢測也是審計的一個硬性要求,自動恢復檢測也將DBA從繁重的恢復檢測工做中完全解脫了出來。網絡
1.5.2 調度設計
整個自動化備份恢復系統主要由調度系統、備份系統、恢復系統、恢復檢測系統、自動修復系統組成。其中調度系統是整個系統核心,經過調度系統來協調其餘系統運行。調度系統能夠部署Standby來實現高可用,執行器以集羣部署來實現高可用和橫向擴容。
備份系統每次備份時都會進行實例健康狀態檢查、備份運行狀態檢查等,防止對無效的數據庫實例進行備份;恢復系統主要是在須要進行數據恢復、彈性擴容等等須要從備份文件恢復成運行的數據庫實例時使用,可以讓DBA經過簡單地操做便可完成數據的恢復;恢復檢測在調度系統的指揮下自動對備份文件可用性進行檢測,來幫助DBA及時發現不可用的備份文件;備份失敗有些是可以經過失敗自動重試來解決,但有一部分是重試所不能解決的,須要進行相應修復,所以開發了自動修復系統來自動修復由於環境等問題引發的備份失敗。
調度系統是最核心的一個系統,是整個備份恢復系統的大腦,當時考察了幾種實現方式,例如Linux的crontab、Azkaban和python的開源框架Apscheduler,最終認爲Apscheduler更加靈活小巧,調度方式也更加多樣化,使用Python開發後期維護成本更低,所以採用Apscheduler開發了調度中心。架構
1.5.3 系統前端
主要分爲備份策略管理、備份詳情、備份黑名單管理、恢復詳情四個模塊。
備份策略管理:
備份策略管理的頁面包含了備份狀態分佈狀況、存儲使用狀況以及每一個集羣的當前備份策略狀態,若是已經添加了備份策略則能夠在這裏進行(時間、服務器、備份方式)修改、暫停(繼續)、刪除操做,若是沒有添加備份策略,則能夠進行添加。
備份詳情:
備份詳情裏面展現了最近備份總數,成功數,成功率,當天備份任務運行狀態,備份任務24小時分佈曲線圖以及備份詳細記錄。備份詳細的記錄能夠根據集羣名、項目名等信息進行查詢,方便DBA更好地掌握備份運行情況。併發
恢復檢測詳情:
恢復檢測頁面包含最近天天恢復檢測數,恢復檢測成功數,成功率柱狀圖,當天恢復檢測任務運行狀態餅圖和近期恢復檢測完成率,有助於DBA對恢復概況有更清晰的瞭解。
2. 數據庫變革
2.1. 過去
在ContainerDB以前,京東的數據庫服務實現了容器化,雖然數據庫服務已經徹底經過Docker容器實現了數據庫服務的快速交付和自動故障切換等基本功能,在必定程度上提升了數據庫服務的穩定性和效率,可是數據庫服務的運維和使用方式與傳統方式基本無異,比較典型的問題以下:
2.1.1 資源分配粒度過大
數據庫服務器資源標準固定,粒度過大,爲數據庫服務可提供的資源標準過少。
2.1.2 資源浪費嚴重
資源分配的標準有DBA根據經驗決定,存在很大的主觀性,不能根據業務的實際狀況進行準確評估,而DBA在分配資源的時候通常都會考慮在3年之內不須要對服務進行遷移或者擴容,而一次分配比較多的資源,存在嚴重資源浪費。並且因爲數據庫資源標準固定,標準過大,致使宿主機中的碎片過大,常常出現一臺宿主機只能建立一個容器,而剩下的資源知足不了任何資源標準,致使宿主機上資源使用率太低。
2.1.3 資源靜態、無調度
數據庫服務一旦提供,所佔據的資源就會固定,不能根據數據庫的負載進行在線動態的調度,而一旦數據庫的硬盤使用率太高,須要DBA人工介入進行擴容處理,效率低下。
2.2. 如今
基於以上的問題,單純的數據庫服務容器化已經沒法解決,咱們須要讓數據庫服務更聰明,讓數據庫的資源可以動起來,提供資源分期交付的功能,因而ContainerDB應運而生。ContainerDB基於負載的彈性調度爲京東的數據庫資源賦予了智慧,令其資源真正地流動起來,並已成功服務於屢次618和11.11大促。
ContainerDB針對每一個業務應用都有邏輯庫,邏輯庫中定義了針對整個業務全部表的拆分鍵(Sharding Key)進行哈希取模運算時模的範圍(KeySpace),在每一個邏輯庫中能夠建立多張表,可是每一個表中必須定義Sharding Key。經過該Sharding Key將表中的數據拆分紅多個分片(Shard),每一個分片都對應一個KeyRange,KeyRange表示對Sharding Key進行哈希取模運算以後獲得的值(Sharding Index)的一個範圍,每一個Shard都由一整套MySQL主從架構提供數據庫服務支撐。應用程序只跟Gate集羣進行交互,由Gate根據元數據信息和SQL語句完成數據寫入和查詢的自動路由。ContainerDB中的監控中心會對全部的基礎服務和資源使用情況進行實時監控,並經過在監控中心註冊的Hook程序自動進行動態擴容、故障自愈、分片管理等,而這一系列操做對應用程序來講是徹底無感知的。
2.2.1 流式資源持續交付
數據庫之前的服務存在資源浪費的一個主要緣由就是資源初始分配粒度太大,一開始就爲業務提早預支3年甚至5年的資源。而資源池中的資源是有限的,不可能讓全部業務都提早預支資源,從而致使有些業務沒有資源。ContainerDB採用流式的方式進行資源的持續交付。每一個業務接入初始都只會分配標準的64G硬盤,隨着業務的發展和數據量的持續增長,會持續增長硬盤容量直到到達硬盤限制的上限256G。
經過這種方式,咱們極大地拉長了數據庫資源的交付週期,進而能夠在三年或者五年的全部資源預算到位以前就能夠首先爲全部服務提供數據庫服務,提高了數據庫的業務支撐能力。
2.2.2 基於負載的彈性調度
數據庫服務使用的資源分爲兩類:瞬時資源和遞增資源。
瞬時資源是指會資源的使用率在短期以內會出現嚴重波動,這種資源主要包括CPU和內存。
遞增資源是指資源的使用率不會再短期以內出現嚴重的波動,而是會緩慢增長,而且支持遞增,不會出現減小的狀況,這種資源主要包括硬盤。ContainerDB對於不一樣的資源採起了不一樣的調度策略。針對於瞬時資源,ContainerDB爲每一個數據庫分配三種標準:
下限:2C/4G, 上限:4C/8G
下限:4C/8G, 上限:8C/16G
下限:8C/16G, 上限:16C/32G
每一個容器分配的初始資源爲標準的下限值,當數據庫服務出現CPU負載太高或者內存不足時,會嘗試申請多於下限的CPU或者內存,但絕對不會超過上限,待負載恢復後釋放多申請的資源,直至恢復至CPU和內存的下限爲止。
針對遞增資源:磁盤,在業務接入之初,統一分配64G的硬盤,每當當前磁盤使用率達到80%,且沒有達到256G上限的時候,則進行垂直升級;若容器當前磁盤達到了256G上限則進行在線Resharding。
垂直升級:首先會進行資源check,看宿主機是否有足夠的剩餘硬盤資源進行垂直升級,若check經過,則會在宿主機施加全局資源鎖,並對硬盤進行垂直擴容再增長64G。若check不經過,則在宿主機上提供一個硬盤大小爲:磁盤容量+64G大小,CPU和內存與當前容器相同的新容器,並將數據庫服務遷移到新的容器上。垂直升級是瞬間完成的不會影響數據庫服務。
在線Resharding:申請兩個新的Shard,新Shard中的數據庫Container的硬盤、CPU和內存標準與當前Shard中的徹底一致,根據當前Shard中的數據庫主從關係,對新Shard中的全部數據庫重建MySQL主從關係,而後啓動Schema信息拷貝和過濾複製,最後更新路由規則並將讀寫流量切換到新的Shard上,將舊的Shard資源下線。
不管是垂直升級仍是在線Resharding,都須要注意一個問題:在保證每一個分片的Master在主機房的前提下,儘可能不要將全部的資源都分配在一個宿主機/機架/機房,ContainerDB提供了強大的親和/反親和性資源分配能力。目前ContainerDB的親和/反親和性策略以下:
每一個KeySpace都有一個主機房,屬於同一個Shard中的數據庫實例(目前一個shard中包含1主2從)的資源分配儘可能應該知足:Master必須屬於主機房,不能有任意兩個實例屬於同一機架,不能有任意三個實例在同一IDC,這種策略能夠避免某一機櫃掉電而致使主從同時出現故障,也能夠避免IDC故障從而致使全部數據庫實例均不可用。
因爲是儘可能知足,因此當資源池中的資源分佈不均時,就有可能在資源分配的時候知足不了上述的反親和性策略。所以ContainerDB有一個常駐後臺進程,不停的輪詢集羣中的全部Shard,判斷Shard中的實例分佈是否知足反親和性規則,若不知足,就會嘗試進行實例從新分佈。從新分佈時爲了避免影響線上業務,會優先進行從庫重分佈。
基於彈性調度的能力ContainerDB實現了以下三個功能:
在線擴容:當某個Shard的數據庫負載達到閾值後,會自動觸發Shard的在線垂直升級、遷移或者Resharding。
在線自愈:當Shard中的某個MySQL實例出現故障,ContainerDB首先判斷出現故障的實例是否爲master,如果master,則選擇GTID最大的slave做爲新的主,並進行復制關係重建和Slave補齊;若不是master,則直接進行slave補齊。
在線接入:ContainerDB容許用戶以徹底自助化的方式啓動數據在線遷移與接入任務,該任務會將傳統MySQL數據庫中的數據在線遷移到ContainerDB中,待數據遷移完畢後,自動進行域名切換,完成業務系統數據源的在線無感知遷移。
ContainerDB經過在線服務能力擴容、在線自愈和在線接入三大功能,實現了京東數據庫服務的Always Online保證。
2.2.3 不止於調度
彈性和流式的資源交付與調度是ContainerDB的基石,可是除了這兩個核心功能以外,ContainerDB還在用戶易用性、兼容性和數據安全性等方面作了不少工做,包括:
數據保護
在傳統的直連數據庫的方案下,當Master出現網絡不可達時,通常都會選擇新的Slave變爲Master,而後將原來Master上的域名漂移到新的Master上。可是這種方案在網絡抖動的狀況下很容易因爲AppServer上的DNS緩存,而致使雙Master,而且出現髒寫的狀況。從總體架構圖能夠看出,ContainerDB與用戶之間經過Gate鏈接。Gate是一個集羣化服務,多個Gate服務都映射到一個域名下,Gate經過IP地址直接訪問各個MySQL服務,並且Gate對各個MySQL角色的識別徹底依賴於元數據服務:Topology。當ContainerDB中某個MySQL的Master產生網絡不可達時,會選出新的Master,並更新路由元數據信息,最後才作Master切換,這樣就避免了因爲網絡抖動和DNS緩存而在成雙主和數據髒寫,從而對數據進行了嚴格的保護。
流式查詢處理
ContainerDB經過在Gate層實現基於優先級的歸併排序提供了快速流式查詢的功能,在進行大批量數據查詢時,能瞬時返回部分查詢結果數據,極大提升客戶體驗。
無感知數據遷移
ContainerDB經過在交叉在Window函數中分別執行部分存量數據拷貝和增量數據追加的算法,開發了在線數據遷移和接入工具JTransfer,經過JTransfer能夠將傳統MySQL數據庫中的動態數據遷移到ContainerDB中,當ContainerDB中的數據與源MySQL中的數據的lag小於5秒時,首先會將源MySQL停寫,待lag變爲0時將源MySQL的域名漂移到Gate集羣,整個遷移過程用戶AppServer無感知。
兼容MySQL協議
ContainerDB徹底兼容MySQL協議,支持標準MySQL客戶端和官方驅動程序接入,而且支持大部分ANSI SQL語法。
路由規則透明
ContainerDB與用戶之間經過Gate集羣進行鏈接,Gate根據用戶發送的查詢語句造成的語法樹和查詢執行計劃獲得查詢中涉及到的全部表,並根據Topology中的元數據信息得到各個表的分片信息,最後結合語句中的Join中的關聯條件和Where字句中的謂詞信息,將查詢或者寫入路由到正確的分片。整個過程都是Gate自動完成的,對用戶徹底透明。
自助化服務
ContainerDB將對數據庫服務的實例化、DDL/DML執行、分片升級和擴容等功能抽象成爲獨立的接口,並藉助於流程引擎提供了流程化的徹底自助的用戶接入服務,用戶申請數據庫服務成功後,ContainerDB會將數據庫訪問口令自動推送到用戶郵箱。
3. 展望
過去已去,將來已來。
咱們後續會更多的從用戶的角度去思考數據庫可以產生的價值。咱們相信京東之後的數據庫服務會:
More Smart:咱們會基於各個數據庫實例中CPU/內存/硬盤等各類不一樣資源的監控數據進行深度學習和聚類分析,分析出各個不一樣數據庫實例的傾向資源,並智能化調高每一個數據庫實例傾向資源的限制並調低非傾向資源的限制。
More Quick:咱們會實時分析宿主機和容器的對應關係、各個容器的限制參數以及各個容器的歷史資源增加速率,預先對容器所在宿主機碎片進行整理,從而儘可能保證各個容器以垂直升級的方式實現擴容,從而極大地加快擴容速度。
More Cheap:咱們會提供徹底自主研發的存儲引擎,計劃實現查詢引擎與存儲引擎的集成,並提供多模型數據庫引擎,從而實現多種數據模型的統一,極大節省數據庫服務所需資源以及研發成本。
More Friendly:不管是ContainerDB仍是咱們自主研發的多模型數據庫,咱們都會徹底兼容MySQL協議及語法,從而使得現有應用的遷移成本趨近於0。
More Open:ContainerDB會在通過京東內部的各類場景的磨練以後會擁抱開源,並但願與業界各位同仁一塊兒將ContainerDB不斷完善。同時咱們後續的多模型數據庫最終也會貢獻給開源社區,並期待其服務於業界。