「遷移策略+新容器運行時」應對有狀態應用的冷熱遷移挑戰

做者:稻農
阿里雲智能事業羣高級技術專家
參與主導容器運行時及網絡創新工做;目前的工做側重於基於進程虛擬化的研究及加強(網絡及熱遷移方面),在阿里推行微安全容器及熱遷移等,力圖在保持容器簡單高資源利用率前提下,提供高安全及熱遷移等加強功能數據庫

你們好,個人花名是稻農,首先我簡單介紹一下我在這個領域的工做。在阿里,咱們如今主要的側重點是作大規模的運維和新的容器運行時。目前,你們可能已經對 Kubernetes 進行了普遍地使用,但多數尚未達到必定規模,有不少痛點以及內部的問題尚未獲得充分暴露。安全

容器遷移背景及現狀
目前,大多數容器的使用還在百臺到千臺的規模。我先簡單介紹一下阿里目前內部容器服務。阿里的淘系應用如天貓、淘寶,目前已經所有實現了容器化,在集團的場景下面是沒有虛擬機的。阿里用了大概三年到四年的時間,作到了 100% 容器化。網絡

你們都知道使用容器有不少好處,好比它在資源耗費方面有很大優點。對於「雙十一」你們應該有很明顯地感覺,相比以前,如今的「雙十一」會「順滑」不少,這樣地轉變也有容器化的功勞。架構

圖片描述

若是你有存量的業務,那你必定會面臨從虛擬機或物理機遷移到容器的過程。絕大多數開發人員其實認爲這是一個負擔,由於他們的應用已經跑起來了,就不太但願由於基礎設施地改變,去作更多工做去進行適配。因此出現了一些咱們叫「富容器」或者「豐富複雜應用容器」的特殊容器。app

圖片描述

簡單說,所謂富容器,就是咱們回在容器內放置一些管理組件。阿里內部組件叫 star agent,它會提供登錄服務,提供各類各樣的包管理,命令行的執行,諸如此類的事情。在真正運維和使用的過程當中,整個容器與虛擬機的差異不大。運維

固然這個東西在業界是存在爭議的,好比咱們是否是應該先作微服務化,把全部服務都變成單1、不可改變的鏡像再run 起來,仍是咱們爲了遷就一些技術債務引入富容器這種技術,這個地方是存在爭議的。可是能夠告訴你們的是,若是你要徹底按照理想化的微服務去執行,基本上不少大的應用(像淘系這些很是複雜的應用,須要改造一下可能要幾個月)可能在第一步就被卡死了。由於咱們有富容器,因此這個應用是有狀態的,並非隨便說我砍掉他,而後異地重啓就能夠了,這就是雙刃劍的另外一面,上線改造容易,運維變得複雜了。微服務

咱們有富容器的一些傳統應用,很難對他們進行微服務無狀態的改造,因此咱們看到有不少場景,好比說容器出現故障時,開發或者運維的同窗很是但願故障以後的新容器長得跟原來容器如出一轍,好比 ip、名字等任何東西都不變,很是符合他們的理想。 工具

有時候,咱們面對一些大規模的容器遷移,好比說在地方開一個很大的機房,咱們就會把杭州或者是上海的容器所有遷走。在過程當中很是麻煩的是有一些容器是有狀態的,你遷的時候你還不敢動它,由於萬一砍掉,可能紅包就發不了了……阿里雲

圖片描述

大的有狀態的應用會佔住物理機,形成沒有辦法去遷移。以上都是容器可攜帶狀態遷移成爲規模化運維的典型場景。spa

容器可攜帶狀態遷移成爲規模化運維難點在於 K8s 或者說整個容器與虛擬機的運維。Docker 公司曾給出說法,虛擬機像寵物同樣,須要受到很精心地呵護才能永遠活得很好,只要很差就須要去修它,這個就是寵物式的管理。K8s 認爲容器應該是牛羣式的放養,死了就直接重啓而不須要對每一頭牛作特別好地呵護,由於成本很高。

在 K8s 裏面,咱們常常看到的就是擴縮容,針對他的假設都是裏面的應用是無狀態。而後在執行層面,你們如今用的通常都是普通容器,或者說是標準容器引擎,就是 runC,雖然 runC
裏面有個 checkpoint 和 restore 的機制,你們用起來就會發現基本上是不可用,坑很是多。

容器可攜帶狀態遷移成爲規模化運維有兩個難點,剛好是咱們要解決的兩個問題:

首先是管理面,K8s 上支撐 pod 的遷移與伸縮不同,咱們所認爲遷移就是這個容器要原封不動地在異地再重生;另外,咱們認爲冷遷移就是業務時間中斷比較長,中斷時間短的就是熱遷移。那這個長短的分界嶺在哪呢?每一個雲廠商會有一些不一樣的見解。咱們認爲大概到毫秒級如下,一百毫秒或者十個毫秒這樣的級別,能夠認爲它是熱遷移。其實任何遷移基本上都會有業務中斷的時間,任何一種機制去實現都不可能實現零時間切換。咱們看一下 K8s 系統對整個容器遷移,2015 年開始,咱們就討論過 pod 的遷移要不要放到K8s裏面去,你們能夠去翻 K8s 社區 issue,但一直沒有下文。
其次是在執行層面,runC 做爲容器運行時主流,雖有 CRIU 的項目輔助,仍然沒法提供完善可靠的遷移機制。

管理面支撐 Pod 遷移
接下來,咱們看看 K8s 爲何不可以作遷移?當前 K8s 系統的 Pod 遷移仍爲空白。其中存在如下問題:

圖片描述

由於每一個 pod 有獨立的標識,還有名字、ID 等。這個東西是要保證惟一性的,否則 K8s 本身也管理不了這些東西。假設有兩個同窗,他們的學號、名字長相徹底同樣,校長是要糊塗的。K8s 主推了對業務的伸縮,就是靠無狀態伸縮,他不會把某一個容器從這遷到那去。

另外,K8s 骨幹系統不支持 Pod
標識及 IP 衝突。咱們認爲 API server、schedule 這種必不可少的部分是骨幹系統。幾個骨幹系統是不支持任何標識衝突的。若是有兩個 pod,他們 ID 同樣, API server
就會糊塗,邏輯就會出問題。

K8s 是一套容器的管理系統,阿里周邊對網盤 ID、對 ip,各類各樣的資源,都有本身的管理系統。這些管理系統在 K8s 的世界裏面,表現爲不一樣的資源 controler,由於這些資源都是錢買來的,要跟底層帳務系統聯動,未來你們都會遇到這些問題,好比說這個部門是否有預算等。在阿里的 K8s 周邊,咱們已經開發了大量的這種 controler 了,他們都是按照這個標識,咱們叫 SN 來管理應用的。數據庫裏面記錄,每一個容器都有一個的標識。

伸縮跟遷移是衝突。由於遷移的時候你可能須要砍掉舊容器。砍掉容器以後,伸縮控制若是正在生效(RC),它就會自動起一個新容器,而不是把這個容器遷移過去,因此這個地方咱們對 RC 這些控制器都要作必定程度地改造。

其餘問題,好比說不少遠程盤不支持多 Mount。由於咱們在作遷移的時候,這個盤必定要作到至少有兩個 Mount。就是個人舊容器跟新容器,可以同時把 PV mount 上去,不少遠程盤仍是不支持的。

剩下還有一些傳統底層支撐系統,好比 IP 管理系統不容許出現地址衝突。好比咱們在分 ip 的時候分兩個同樣的是不可想象的,這個是咱們最簡單的遷移過程。遷移過程是這樣的,咱們想最小地去改造 K8s,當你的系統真正上了管理系統,複雜了之後,你們都會對 K8s 有一些適應性地改造。

這些改造最好的表現形式可能就是 controler 了,你不要去對骨幹系統作改動,改動以後就很難再回到主線來了。在遷移過程當中,咱們仍是沒有辦法必定要對骨幹系統作一些改造,那麼咱們想盡可能減小它的改造量。

第一步,咱們會生成一個從資源上來說跟原來的 pod 或者容器徹底同樣的一個 pod,它須要幾核幾 U,它須要一個什麼遠程盤,它須要一個什麼的多少個 ip,多 ip 的話還要考慮多少個 ip,多少個直通網卡,或者是非直通的網卡,資源徹底同樣,這個是徹底標準的。咱們建立一個資源,一個新 pod,這就像一個佔位符同樣。假設我這臺物理機要壞了,那麼我在一個打標以後,我在一個新的好的物理集羣上,生產一個這樣的 pod,讓我拿到了資源。

第二個過程就是說咱們兩邊的 agent,好比說是 runC 或者是阿里作的 pouch-container 也好,咱們這種 OCI 的 Agent 之間會有一個協商的過程,它的協商過程就是會把舊的 pod 的狀態同步過去,剛纔咱們新生成的 pod ,實際它是佔位符。

咱們會把新的鏡像動態地插入 pod 裏,API 對 CRI 的接口是支持的,當前咱們沒有辦法在一個已經產生的 pod 裏面去插入新的 container。但實際上 OCI 接口自己是支持的,能夠在一個 sandbox 裏面去刪掉已有的 container 和增長新的 container,不須要作什麼新的工做,只要打通管理層的事情就能夠了。

另外,喚醒記憶的過程其實就是兩邊狀態同步,狀態同步完畢,咱們會作一個切流,切流就是把舊的容器再也不讓新的需求過來,一旦咱們監控到一個靜默期,它沒有新的需求過來,咱們會把舊的 pod 停掉。其實暫時不停掉也不要緊,由於反正沒有客戶來找他進行服務了,已經被隔離到整個系統外面去了,刪除資源是危險操做,通常會放置個一兩天,以備萬一要回滾。

最後一個過程新開發工做量比較大,咱們要把前面那個佔位做用的 pod 標識改掉,ip 與舊的設置成同樣,而後一切須要同步的東西都在這一步完成。完成以後就上去通知 API
server 說遷移過程完成,最後完成整個過程。因此你們會看到,其實第一步基本上標準的 K8s 就支持。

圖片描述

第二步咱們是 K8s 不感知的,就是咱們在兩個宿主機上作兩個 agent 作狀態同步。對 K8S 的改造也比較小。那麼最後一個會比較多,API server 確定是要改。RC 控制器可能改,若是你有 CI 的這種就是 IPM 的管理,IPM 的管理,這個地方要改。

接下來,我從 OCI 的運行這個地方來來討論這個過程,由於實際上是有兩層面,一個是咱們籃框這裏是一個 pod,從它的狀態 Dump 落盤到遠端把它恢復,整個同步過程當中,咱們會插入對 K8s 系統的調用,涉及對容器管理系統的改造。

圖片描述

看外面這兩個白框,上面這個咱們叫預處理過程,其實就是前面講的,咱們要去建立新的 pod、佔位符,而後在那邊把資源申請到最後一個後期建議。咱們剛纔說的最後一步,咱們叫標識的重構重建跟舊的 pod 徹底同樣的,你們在咱們開發過程當中會遇到各類各樣的衝突,好比說 API server 會說,你有兩個標識同樣的,這個代碼就要特殊處理。APM 有時候會跳出來講你有 ip 衝突,這樣也要特殊處理,至少有幾個骨幹系統確定是要作的。

這部分由於涉及到 K8s 骨幹的改造, patch 咱們尚未提上來。接下來還要跟社區討論他們要不要 follow 咱們的作法,由於如今 K8s 的容器就是無狀態的觀點還比較佔上風。

剛纔咱們講到管理面咱們認爲是事務處理的,路上會有不少障礙,可是這些障礙都是能夠搬掉的,就是說無非是這個東西不容許衝突,我改一改讓他容許衝突,或者容許短期的一個並存,那個東西不容許我再改一改。比較硬核的部分是底層引擎去支撐熱遷移,尤爲是熱遷移,冷遷移其實問題不大,冷遷移就是說我只是恢復那些外部可見的狀態(不遷移內存頁表等內部數據),若是對個人業務恢復時間沒有什麼要求的話,就比較容易作。

RunC 引擎的可遷移性
接下來,咱們講 RunC,RunC 應·該是你們用的最多的,它就是標準的 container 去進行的遷移改造。若是你們去看過 checkpoint 開放的這部分代碼,能夠發現 RunC 依靠的機制就是一個叫 CRIU 的東西。他在優點技術已經出現比較長的時間了,他的整個的想法就是,用戶態把一個進程或者一個進程數徹底落盤在把它存到磁盤上,而後在異地從磁盤把進程恢復,包括它的 PC 指針,它的棧,它的各類各樣的資源,通過一段時間地摸索,基本上能夠認爲內存狀態是沒有問題的,就是頁表,頁表是能夠作到精確恢復的。

圖片描述

無論你這邊涉及多少物理頁是髒的,仍是乾淨的,這個都是百分之百能夠還原出來的。進程執行的上下文,好比各類寄存器,調用 stack 等,這些都沒問題。跟純進程執行態相關的問題都已經徹底解決了,這個不用擔憂。而後你們比較擔憂的就是一個網絡狀態,好比說你們都知道 TCP 是帶狀態的,它是已鏈接?等待鏈接仍是斷開?其實這個網絡 Socket 遷移的工做也基本完成了。

我能夠簡單講一下,它的實現方法是這樣,就是說它在 Linux set 裏面加了一個修復模式,修復模式一旦啓動,就再也不向外發送真正的數據包,而是隻進行狀態及內部 buffer 的同步,好比你下達的這種 close,不會向外發包,只是體現爲對狀態信息的導出。

好比說你要進入修復模式,那在原端就要關閉 Socket,它並不會真正的去發 close 的 TCP 包,它只是把信息 Dump 出來,在新的目的地端去 connect。它也不會真正去包,最後的結果就是除了 mac 地址不同,TCP 裏面的狀態也恢復到遠端了,裏面的內存狀態都轉過去了,通過實際驗證其實也是比較可靠。還有打開的文件句柄恢復,你打開的文件,你如今文件好比說讀寫指針到了 0xFF,文件的 off
set 恢復都是沒有問題的。

其實咱們在冷熱遷移中最擔憂的就是耗時問題,我一個容器究竟花多長時間?一個 pod 多長時間能夠遷移到新目的地的宿主機上去,耗時的就是內存。也就是說像不少 Java 應用,假設你的內存用得越多,你的遷移時間就是準備時間就越長。能夠看到咱們剛纔實際上是有一個協商過程。在協商過程當中舊的 pod 還在繼續提供服務,可是它會不停的把它的狀態 Sync 到遠端去。這個時間其實並非業務中斷的時間,若是耗時特別長,也會由於業務時在不停轉的,若是你的內存老是在不停地作大量改動,你的準備時間和最後的完成時間就會很是長,有可能會超時。

咱們去評估一個業務能不能作熱遷移,或者這個的時候或者一些狀況,它所使用的內存大小是一個比較大的考量。

而後剩下就是咱們踩到的坑。如今還有不少東西它支持的不大好。這個地方你們能夠理解一個進程,一個進程其實就是一個本身頁表,有本身的堆棧,一個可執行的活體。那麼它支持很差的部分都是外部的,若是它依賴一些主機設備,就很難把一個設備遷移走。

而後剩下就是文件鎖,若是這個文件是的多個進程共用就會加鎖。由於這個鎖的狀態還涉及到別的進程,因此你只遷移這一個進程的時候會出問題。這個地方邏輯上會有問題,其實你們能夠籠統地這樣去判斷,若是我依賴的東西是跟別用戶、進程有一些共享,甚至這個東西就是內核的一個什麼設備,這種就比較難遷移走。因此簡單來講就是自包含程度越高越容易遷移。

這個是一個比較詳細的一個圖,跟我剛纔講的過程實際上是差很少,咱們仍是會在原端發起熱遷移的請求,請求以後,會發起兩端兩邊 Agent 的sick,而後最後中間會切流。

圖片描述

等到 Sync 狀態完成,咱們會通知 K8s 說我這邊能夠了,那麼 K8s 會完成一個,從舊的容器,就是把流從舊的 pod 切到新 pod 來,而後最後把全部的標識,這個是由底向上的,個人標識跟個人 SN 或者說個人 ip 都改造完了,最後通知一下 K8s 就結束了。

新運行時帶來的機會
最後,我想分享的是新的運行時。咱們在社區裏面會看到容器,如今來講在私有云上,它的主要的形態還時 RunC,就是普通的 Linux 標準容器。那麼咱們在公有云上爲了能混布,或者說跟內外客戶/在線離線都在一塊兒,他對安全的要求比較高,咱們通常會選虛擬機類型的容器引擎,好比像 kata 這樣的東西。

早先來講你的選擇就只有兩種,要麼你講效率,不講安全,就是純容器;要麼你講安全,不講效率,就跑一個虛擬機式的容器。自從從去年開始,谷歌、亞馬遜等頭部玩家開始作一些新的事情,叫作進程及虛擬化。就像咱們在中學物理講過,好比說光的波粒二象性,它在一些維度上看起來是波,一些維度上是粒子。其實這個與程級虛擬化是很相像的,也就是說從資源管理這個角度看,它是一個普通進程。 可是在內部爲了增強隔離性,會作一個本身的內核,咱們認爲從這個角度看,它是一個虛機;可是從外部資源角度來看,由於這個內核是隱形生效的(並無動用其餘虛擬機工具去啓動容器),也不會去實現完整的設備級模擬,管理系統感受它就是一個普通進程。

這是一種新的潮流,也就是說咱們判斷這個東西(固然咱們還須要在裏面作不少工做),像這種比較顛覆性的事情,有可能會未來成爲容器運行時的一個有益補充或者是主流。簡單的說,這種新的運行時會有本身的私有內核,並且這個內核通常如今都不會再用 C 語言去再寫一遍,由於底層語言比較繁瑣,也很容易出錯。

用過 C語言的人都知道帶指針管理很危險,Linux 社區 bug 比比皆是,現代的作法都會用 Go 語言或其餘一些高級語言重寫,有本身的垃圾回收的機制,指針就不要本身去管理了。通常不會提供很豐富的虛擬設備管理。由於這部分對一個應用來講是冗餘的,普通應用它跑起來,其實不多去關心我要用什麼設備須要什麼特殊 proc 配置,簡單的說就是把虛擬機的冗餘部分所有砍掉,只留下我跟普通應用 Linux 的 APP 跑起來。

圖片描述

這個是咱們對運行史的一個簡單的比較,是從自包含的角度來說,由於包含的程度越高,它的熱遷移越容易實現,或通常來講安全性也越高。

亞馬遜如今在作 Firecracker,它也是用現代語言重寫了內核。微軟的雲也在作一個事情。你們的思路是比較一致的。由於硅谷技術交流是很頻繁的,他們的技術人員之間都是比較知根知底的,Google 作了 gVisor。華爲用的是 Kata。

你們可能據說過谷歌的 gVisor,gVisor 是這樣一個機制,就是說我會在一個 APP,就是普通的未經任何修改的 ,跑在容器裏的 Linux 應用,那麼咱們怎麼去讓他用咱們的內核而不用 Linux 內核?核心的事情,就是要捕獲他的系統調用,或者說劫持均可以。

系統調用的劫持有軟硬兩種方法,軟件來講,咱們在 Linux 內核裏面利用 pTrace 的機制,強迫就設完以後你設置的進程的全部系統調用,他不會讓內核去,而是先到你進程來。這個叫作軟件實現。

其次咱們叫硬件實現的,就是說咱們會強迫這個 APP 跑在虛擬機的狀態。咱們知道在虛擬機裏面,虛擬機會有本身中斷向量表,他是經過這種方式來獲取執行時的。而後咱們的 Guest kernel 是這樣的,咱們會看到如今的相似內核是無比龐大的,應該截止到如今有 2000 萬行代碼,這裏面絕大部分其實跟容器運行時沒有太大關係。

因此像 Google 和亞馬遜包括咱們如今想法就是,我只須要把 Syscall 服務做好,也就是說 APP 它看到的無非就是這 300 多個 Syscall。這 300 多個系統調用你可以服務好,就是無論你的 Syscall 服務用 Go 寫,仍是用 Python 寫的(不講究效率的話)你均可以認爲你有本身的內核,而後跟主機的內核是隔離的,由於我沒有讓 APP 直接接觸主機內核的東西。

爲了安全,咱們也不容許用戶直接去操做主機文件。 你們看到,RunC 上面像這樣的你去操做的文件,事實上在主機上或者在宿主機上都是有一個表明,無論你 Overlay 出來,仍是快照 DeviceMapper,你能夠在磁盤上還能找到這個真實的存儲。

其實這個是一個很大的威脅,就是說用戶能夠直接去操做文件系統。他們操做文件系統以後,其實咱們能夠相信文件系統是有不少 bug 的。它代碼量那麼大,老是有可能突破的。因此咱們加了防禦層叫 Gofer。Gofer 是一個文件的代理進程,只有就是用戶所發出的全部 file 的 read 和 right 都會被咱們截獲,截獲完會通過 Gofer 的一個審查。若是你確實有權限去碰這個文件,他纔會去給你這個操做,這個是大概的一個架構。

而後簡單講一下 gVisor 裏面是怎麼跑的,APP 在 RunC 裏面,它直接 call 到的就是主機的內核。就是這條紅線,Call 這個內核,他該得到哪些 syscall 就會得到 syscall,若是假設內核是有什麼故障或者 bug,這個時候它就能夠突破一些限制,應該是上星期吧, RunC 就報了一個很大的逃逸漏洞,須要整改!

在 Gvisor 的裏面,他的執行方是這樣的,個人 APP 第一步會被 PTrace 或者個人 KVM-Guest 內核捕獲,捕獲以後在咱們叫 Sentry,爲何這個紅線畫的劃到 kernel 上面,由於捕獲的過程,要麼是通過 KVM-Guest-ring0 的,要麼是通過PTrace系統調用,因此我認爲仍是內核要幫忙。而後sEntry拿到這個系統調用以後,他會去作力所能及的事情,好比說你要去讀一些PROC文件,你要去申請文件句柄,本地就能夠完成服務返回,這個事很是高效的。

圖片描述

而後有一些事情,好比說你要去,假設說你要去讀寫主機上的一個網卡這樣的事情,sEentry 本身確實作不了,他就會把這個需求轉發到主機內核上去,等到獲得服務以後再原路返回。文件操做就是這樣的,若是你它讀寫任何的主機文件,都會去Call 到 Gofer的進程(審查請求),而後代理訪問服務,去讀寫真正的文件把結果返回。這個是你們能夠看到,APP 就是被關在兩重牢籠裏面就叫 Guest Kernel(sentry),一個是 Host Kernel,由於他自己又是一個進程,因此從安全性上來說,由於 APP 和 sEntry 不共頁表,其實能夠說比虛擬機還要安全。

由於虛擬機裏面 Guest Kernel 就是跟 APP 共頁表,Guest Kernel 躲在這個列表的上端。而在 gVisor 裏面 Guest Kernel 跟 APP 是徹底不一樣的兩套頁表,諸如此類有不少方面,你們會發現 gVisor 比虛擬機更加的安全。

固然咱們作了這麼多隔離,也會有反作用,就是運行效率會有問題,尤爲是網絡,包括阿里、谷歌咱們都會持續改進,還有不少同事在裏面作不少工做,會把虛擬機已有的一些經驗用到 Go 的內核上去,咱們的理想是虛擬損耗到 5% 如下。

最後這個議題就是說咱們如今有不少新的運行時,你們在選型的時候,其實除了 RunC 除了 Kata 等等。

圖片描述

將來,你們能夠去比較各類運行時。當咱們選型一個容器的引擎,會去綜合地看它的運行效率,它的安全性,尤爲是代碼複雜度,代碼越多,基本上你能夠認爲這個東西出 bug 的概率就越高,代碼越少其實越好,大概是這樣的考量。

咱們跟業界還有一個合做,還再有一個咱們還在想作對容器運行時作一個平,最後綜合打一個分。完成後會開源給你們使用。怎麼去評價一個 runtime 是好的?高效的,它的安全性到多少分?就跟汽車的這種評分同樣的。我今天介紹大概就是這些。

相關文章
相關標籤/搜索