做者 | 唐華敏(華敏) 阿里雲容器平臺技術專家docker
本文整理自《CNCF x Alibaba 雲原生技術公開課》第 15 講。安全
關注「阿里巴巴雲原生」公衆號,回覆關鍵詞「入門」,便可下載從零入門 K8s 系列文章 PPT。bash
導讀:Linux 容器是一種輕量級的虛擬化技術,在共享內核的基礎上,基於 namespace 和 cgroup 技術作到進程的資源隔離和限制。本文將會以 docker 爲例,介紹容器鏡像和容器引擎的基本知識。微信
容器是一種輕量級的虛擬化技術,由於它跟虛擬機比起來,它少了一層 hypervisor 層。先看一下下面這張圖,這張圖簡單描述了一個容器的啓動過程。網絡
最下面是一個磁盤,容器的鏡像是存儲在磁盤上面的。上層是一個容器引擎,容器引擎能夠是 docker,也能夠是其它的容器引擎。引擎向下發一個請求,好比說建立容器,這時候它就把磁盤上面的容器鏡像運行成在宿主機上的一個進程。架構
對於容器來講,最重要的是怎麼保證這個進程所用到的資源是被隔離和被限制住的,在 Linux 內核上面是由 cgroup 和 namespace 這兩個技術來保證的。接下來以 docker 爲例,詳細介紹一下資源隔離和容器鏡像兩部分的內容。app
namespace 是用來作資源隔離的,在 Linux 內核上有七種 namespace,docker 中用到了前六種。第七種 cgroup namespace 在 docker 自己並無用到,可是在 runC 實現中實現了 cgroup namespace。less
咱們先從頭看一下:dom
這裏咱們簡單用 unshare 示例一下 namespace 創立的過程。容器中 namespace 的建立其實都是用 unshare 這個系統調用來建立的。微服務
上圖上半部分是 unshare 使用的一個例子,下半部分是我實際用 unshare 這個命令去建立的一個 pid namespace。能夠看到這個 bash 進程已是在一個新的 pid namespace 裏面,而後 ps 看到這個 bash 的 pid 如今是 1,說明它是一個新的 pid namespace。
cgroup 主要是作資源限制的,docker 容器有兩種 cgroup 驅動:一種是 systemd 的,另一種是 cgroupfs 的。
**cgroupfs **比較好理解。好比說要限制內存是多少、要用 CPU share 爲多少?其實直接把 pid 寫入對應的一個 cgroup 文件,而後把對應須要限制的資源也寫入相應的 memory cgroup 文件和 CPU 的 cgroup 文件就能夠了;
另一個是 **systemd **的一個 cgroup 驅動。這個驅動是由於 systemd 自己能夠提供一個 cgroup 管理方式。因此若是用 systemd 作 cgroup 驅動的話,全部的寫 cgroup 操做都必須經過 systemd 的接口來完成,不能手動更改 cgroup 的文件。
接下來看一下容器中經常使用的 cgroup。Linux 內核自己是提供了不少種 cgroup,可是 docker 容器用到的大概只有下面六種:
也有一部分是 docker 容器沒有用到的 cgroup。容器中經常使用的和不經常使用的,這個區別是對 docker 來講的,由於對於 runC 來講,除了最下面的 rdma,全部的 cgroup 其實都是在 runC 裏面支持的,可是 docker 並無開啓這部分支持,因此說 docker 容器是不支持下圖這些 cgroup 的。
接下來咱們講一下容器鏡像,以 docker 鏡像爲例去講一下容器鏡像的構成。
docker 鏡像是基於聯合文件系統的。簡單描述一下聯合文件系統,大概的意思就是說:它容許文件是存放在不一樣的層級上面的,可是最終是能夠經過一個統一的視圖,看到這些層級上面的全部文件。
如上圖所示,右邊是從 docker 官網拿過來的容器存儲的一個結構圖。
這張圖很是形象地代表了 docker 的存儲,docker 存儲也就是基於聯合文件系統,是分層的。每一層是一個 Layer,這些 Layer 由不一樣的文件組成,它是能夠被其餘鏡像所複用的。能夠看一下,當鏡像被運行成一個容器的時候,最上層就會是一個容器的讀寫層。這個容器的讀寫層也能夠經過 commit 把它變成一個鏡像頂層最新的一層。
docker 鏡像的存儲,它的底層是基於不一樣的文件系統的,因此它的存儲驅動也是針對不一樣的文件系統做爲定製的,好比 AUFS、btrfs、devicemapper 還有 overlay。docker 對這些文件系統作了一些相對應的 graph driver 的驅動,經過這些驅動把鏡像存在磁盤上面。
接下來咱們以 overlay 這個文件系統爲例,看一下 docker 鏡像是怎麼在磁盤上進行存儲的。
先看一下下面這張圖,簡單地描述了 overlay 文件系統的工做原理。
最下層是一個 lower 層,也就是鏡像層,它是一個只讀層;
右上層是一個 upper 層,upper 是容器的讀寫層,upper 層採用了寫實複製的機制,也就是說只有對某些文件須要進行修改的時候纔會從 lower 層把這個文件拷貝上來,以後全部的修改操做都會對 upper 層的副本進行修改;
upper 並列的有一個 workdir,它的做用是充當一箇中間層的做用。也就是說,當對 upper 層裏面的副本進行修改時,會先放到 workdir,而後再從 workdir 移到 upper 裏面去,這個是 overlay 的工做機制;
最上面的是 mergedir,是一個統一視圖層。從 mergedir 裏面能夠看到 upper 和 lower 中全部數據的整合,而後咱們 docker exec 到容器裏面,看到一個文件系統其實就是 mergedir 統一視圖層。
接下來咱們講一下基於 overlay 這種存儲,怎麼對容器裏面的文件進行操做?
先看一下讀操做,容器剛建立出來的時候,upper 實際上是空的。這個時候若是去讀的話,全部數據都是從 lower 層讀來的。
寫操做如剛纔所提到的,overlay 的 upper 層有一個寫實數據的機制,對一些文件須要進行操做的時候,overlay 會去作一個 copy up 的動做,而後會把文件從 lower 層拷貝上來,以後的一些寫修改都會對這個部分進行操做。
而後看一下刪除操做,overlay 裏面實際上是沒有真正的刪除操做的。它所謂的刪除實際上是經過對文件進行標記,而後從最上層的統一視圖層去看,看到這個文件若是作標記,就會讓這個文件顯示出來,而後就認爲這個文件是被刪掉的。這個標記有兩種方式:
接下來看一下實際用 docker run 去啓動 busybox 的容器,它的 overlay 的掛載點是什麼樣子的?
第二張圖是 mount,能夠看到這個容器 rootfs 的一個掛載,它是一個 overlay 的 type 做爲掛載的。裏面包括了 upper、lower 還有 workdir 這三個層級。
而後看一下容器裏面新文件的寫入。docker exec 去建立一個新文件,diff 這個從上面能夠看到,是它的一個 upperdir。再看 upperdir 裏面有這個文件,文件裏面的內容也是 docker exec 寫入的。
最後看一下最下面的是 mergedir,mergedir 裏面整合的 upperdir 和 lowerdir 的內容,也能夠看到咱們寫入的數據。
接下來咱們基於 CNCF 的一個容器引擎上的 containerd,來說一下容器引擎大體的構成。下圖是從 containerd 官網拿過來的一張架構圖,基於這張架構圖先簡單介紹一下 containerd 的架構。
上圖若是把它分紅左右兩邊的話,能夠認爲 containerd 提供了兩大功能。
第一個是對於 runtime,也就是對於容器生命週期的管理,左邊 storage 的部分實際上是對一個鏡像存儲的管理。containerd 會負責進行的拉取、鏡像的存儲。
按照水平層次來看的話:
第一層是 GRPC,containerd 對於上層來講是經過 GRPC serve 的形式來對上層提供服務的。Metrics 這個部分主要是提供 cgroup Metrics 的一些內容;
下面這層的左邊是容器鏡像的一個存儲,中線 images、containers 下面是 Metadata,這部分 Matadata 是經過 **bootfs **存儲在磁盤上面的。右邊的 Tasks 是管理容器的容器結構,Events 是對容器的一些操做都會有一個 Event 向上層發出,而後上層能夠去訂閱這個 Event,由此知道容器狀態發生什麼變化;
最下層是 Runtimes 層,這個 Runtimes 能夠從類型區分,好比說 runC 或者是安全容器之類的。
接下來說一下 containerd 在 runtime 這邊的大體架構。下面這張圖是從 kata 官網拿過來的,上半部分是原圖,下半部分加了一些擴展現例,基於這張圖咱們來看一下 containerd 在 runtime 這層的架構。
如圖所示:按照從左往右的一個順序,從上層到最終 runtime 運行起來的一個流程。
咱們先看一下最左邊,最左邊是一個 CRI Client。通常就是 kubelet 經過 CRI 請求,向 containerd 發送請求。containerd 接收到容器的請求以後,會通過一個 containerd shim。containerd shim 是管理容器生命週期的,它主要負責兩方面:
圖的上半部分畫的是安全容器,也就是 kata 的一個流程,這個就不具體展開了。下半部分,能夠看到有各類各樣不一樣的 shim。下面介紹一下 containerd shim 的架構。
一開始在 containerd 中只有一個 shim,也就是藍色框框起來的 containerd-shim。這個進程的意思是,不論是 kata 容器也好、runc 容器也好、gvisor 容器也好,上面用的 shim 都是 containerd。
後面針對不一樣類型的 runtime,containerd 去作了一個擴展。這個擴展是經過 shim-v2 這個 interface 去作的,也就是說只要去實現了這個 shim-v2 的 interface,不一樣的 runtime 就能夠定製不一樣的 shim。好比:runC 能夠本身作一個 shim,叫 shim-runc;gvisor 能夠本身作一個 shim 叫 shim-gvisor;像上面 kata 也能夠本身去作一個 shim-kata 的 shim。這些 shim 能夠替換掉上面藍色框的 containerd-shim。
這樣作的好處有不少,舉一個比較形象的例子。能夠看一下 kata 這張圖,它上面原先若是用 shim-v1 的話其實有三個組件,之因此有三個組件的緣由是由於 kata 自身的一個限制,可是用了 shim-v2 這個架構後,三個組件能夠作成一個二進制,也就是原先三個組件,如今能夠變成一個 shim-kata 組件,這個能夠體現出 shim-v2 的一個好處。
接下來咱們以兩個示例來詳細解釋一下容器的流程是怎麼工做的,下面的兩張圖是基於 containerd 的架構畫的一個容器的工做流程。
先看一下容器 start 的流程:
這張圖由三個部分組成:
先看一下這個流程是怎麼工做的,圖裏面也標明瞭 一、二、三、4。這個 一、二、三、4 就是 containerd 怎麼去建立一個容器的流程。
首先它會去建立一個 matadata,而後會去發請求給 task service 說要去建立容器。經過中間一系列的組件,最終把請求下發到一個 shim。containerd 和 shim 的交互其實也是經過 GRPC 來作交互的,containerd 把建立請求發給 shim 以後,shim 會去調用 runtime 建立一個容器出來,以上就是容器 start 的一個示例。
接下來看下面這張圖是怎麼去 exec 一個容器的。 和 start 流程很是類似,結構也大概相同,不一樣的部分其實就是 containerd 怎麼去處理這部分流程。和上面的圖同樣,我也在圖中標明瞭 一、二、三、4,這些步驟就表明了 containerd 去作 exec 的一個前後順序。
由上圖能夠看到:exec 的操做仍是發給 containerd-shim 的。對容器來講,去 start 一個容器和去 exec 一個容器,其實並無本質的區別。
最終的一個區別無非就是:是否對容器中跑的進程作一個 namespace 的建立。
最後但願各位同窗看完本文後,可以對 Linux 容器有更深入的瞭解。這裏爲你們簡單總結一下本文的內容:
「 阿里巴巴雲原生微信公衆號(ID:Alicloudnative)關注微服務、Serverless、容器、Service Mesh等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐,作最懂雲原生開發者的技術公衆號。」
更多相關內容,請關注「阿里巴巴雲原生」。