深刻理解 Linux Cgroup 系列（一）：基本概念

時間 2019-11-05

原文原文鏈接

原文連接：深刻理解 Linux Cgroup 系列（一）：基本概念html

Cgroup 是 Linux kernel 的一項功能：它是在一個系統中運行的層級制進程組，你可對其進行資源分配（如 CPU 時間、系統內存、網絡帶寬或者這些資源的組合）。經過使用 cgroup，系統管理員在分配、排序、拒絕、管理和監控系統資源等方面，能夠進行精細化控制。硬件資源能夠在應用程序和用戶間智能分配，從而增長總體效率。linux

cgroup 和 namespace 相似，也是將進程進行分組，但它的目的和 namespace 不同，namespace 是爲了隔離進程組之間的資源，而 cgroup 是爲了對一組進程進行統一的資源監控和限制。segmentfault

cgroup 分 v1 和 v2 兩個版本，v1 實現較早，功能比較多，可是因爲它裏面的功能都是零零散散的實現的，因此規劃的不是很好，致使了一些使用和維護上的不便，v2 的出現就是爲了解決 v1 中這方面的問題，在最新的 4.5 內核中，cgroup v2 聲稱已經能夠用於生產環境了，但它所支持的功能還頗有限，隨着 v2 一塊兒引入內核的還有 cgroup namespace。v1 和 v2 能夠混合使用，可是這樣會更復雜，因此通常沒人會這樣用。bash

1. 爲何須要 cgroup

在 Linux 裏，一直以來就有對進程進行分組的概念和需求，好比 session group， progress group 等，後來隨着人們對這方面的需求愈來愈多，好比須要追蹤一組進程的內存和 IO 使用狀況等，因而出現了 cgroup，用來統一將進程進行分組，並在分組的基礎上對進程進行監控和資源控制管理等。網絡

2. 什麼是 cgroup

術語 cgroup 在不一樣的上下文中表明不一樣的意思，能夠指整個 Linux 的 cgroup 技術，也能夠指一個具體進程組。session

cgroup 是 Linux 下的一種將進程按組進行管理的機制，在用戶層看來，cgroup 技術就是把系統中的全部進程組織成一顆一顆獨立的樹，每棵樹都包含系統的全部進程，樹的每一個節點是一個進程組，而每顆樹又和一個或者多個 subsystem 關聯，樹的做用是將進程分組，而 subsystem 的做用就是對這些組進行操做。cgroup 主要包括下面兩部分：ssh

subsystem : 一個 subsystem 就是一個內核模塊，他被關聯到一顆 cgroup 樹以後，就會在樹的每一個節點（進程組）上作具體的操做。subsystem 常常被稱做 resource controller，由於它主要被用來調度或者限制每一個進程組的資源，可是這個說法不徹底準確，由於有時咱們將進程分組只是爲了作一些監控，觀察一下他們的狀態，好比 perf_event subsystem。到目前爲止，Linux 支持 12 種 subsystem，好比限制 CPU 的使用時間，限制使用的內存，統計 CPU 的使用狀況，凍結和恢復一組進程等，後續會對它們一一進行介紹。
hierarchy : 一個 hierarchy 能夠理解爲一棵 cgroup 樹，樹的每一個節點就是一個進程組，每棵樹都會與零到多個 subsystem 關聯。在一顆樹裏面，會包含 Linux 系統中的全部進程，但每一個進程只能屬於一個節點（進程組）。系統中能夠有不少顆 cgroup 樹，每棵樹都和不一樣的 subsystem 關聯，一個進程能夠屬於多顆樹，即一個進程能夠屬於多個進程組，只是這些進程組和不一樣的 subsystem 關聯。目前 Linux 支持 12 種 subsystem，若是不考慮不與任何 subsystem 關聯的狀況（systemd 就屬於這種狀況），Linux 裏面最多能夠建 12 顆 cgroup 樹，每棵樹關聯一個 subsystem，固然也能夠只建一棵樹，而後讓這棵樹關聯全部的 subsystem。當一顆 cgroup 樹不和任何 subsystem 關聯的時候，意味着這棵樹只是將進程進行分組，至於要在分組的基礎上作些什麼，將由應用程序本身決定，systemd 就是一個這樣的例子。

3. 將資源看做一塊餅

在 CentOS 7 系統中（包括 Red Hat Enterprise Linux 7），經過將 cgroup 層級系統與 systemd 單位樹捆綁，能夠把資源管理設置從進程級別移至應用程序級別。默認狀況下，systemd 會自動建立 slice、scope 和 service 單位的層級（具體的意思稍後再解釋），來爲 cgroup 樹提供統一結構。能夠經過 systemctl 命令建立自定義 slice 進一步修改此結構。工具

若是咱們將系統的資源當作一塊餡餅，那麼全部資源默認會被劃分爲 3 個 cgroup：System, User 和 Machine。每個 cgroup 都是一個 slice，每一個 slice 均可以有本身的子 slice，以下圖所示：post

下面咱們以 CPU 資源爲例，來解釋一下上圖中出現的一些關鍵詞。性能

如上圖所示，系統默認建立了 3 個頂級 slice（System, User 和 Machine），每一個 slice 都會得到相同的 CPU 使用時間（僅在 CPU 繁忙時生效），若是 user.slice 想得到 100% 的 CPU 使用時間，而此時 CPU 比較空閒，那麼 user.slice 就可以如願以償。這三種頂級 slice 的含義以下：

system.slice —— 全部系統 service 的默認位置
user.slice —— 全部用戶會話的默認位置。每一個用戶會話都會在該 slice 下面建立一個子 slice，若是同一個用戶屢次登陸該系統，仍然會使用相同的子 slice。
machine.slice —— 全部虛擬機和 Linux 容器的默認位置

控制 CPU 資源使用的其中一種方法是 shares。shares 用來設置 CPU 的相對值（你能夠理解爲權重），而且是針對全部的 CPU（內核），默認值是 1024。所以在上圖中，httpd, sshd, crond 和 gdm 的 CPU shares 均爲 1024，System, User 和 Machine 的 CPU shares 也是 1024。

假設該系統上運行了 4 個 service，登陸了兩個用戶，還運行了一個虛擬機。同時假設每一個進程都要求使用盡量多的 CPU 資源（每一個進程都很繁忙）。

system.slice 會得到 33.333% 的 CPU 使用時間，其中每一個 service 都會從 system.slice 分配的資源中得到 1/4 的 CPU 使用時間，即 8.25% 的 CPU 使用時間。
user.slice 會得到 33.333% 的 CPU 使用時間，其中每一個登陸的用戶都會得到 16.5% 的 CPU 使用時間。假設有兩個用戶：tom 和 jack，若是 tom 註銷登陸或者殺死該用戶會話下的全部進程，jack 就可以使用 33.333% 的 CPU 使用時間。
machine.slice 會得到 33.333% 的 CPU 使用時間，若是虛擬機被關閉或處於 idle 狀態，那麼 system.slice 和 user.slice 就會從這 33.333% 的 CPU 資源裏分別得到 50% 的 CPU 資源，而後均分給它們的子 slice。

若是想嚴格控制 CPU 資源，設置 CPU 資源的使用上限，即無論 CPU 是否繁忙，對 CPU 資源的使用都不能超過這個上限。能夠經過如下兩個參數來設置：

cpu.cfs_period_us = 統計CPU使用時間的週期，單位是微秒（us） 
cpu.cfs_quota_us = 週期內容許佔用的CPU時間(指單核的時間，多核則須要在設置時累加)

systemctl 能夠經過 CPUQuota 參數來設置 CPU 資源的使用上限。例如，若是你想將用戶 tom 的 CPU 資源使用上限設置爲 20%，能夠執行如下命令：

$ systemctl set-property user-1000.slice CPUQuota=20%

在使用命令 systemctl set-property 時，可使用 tab 補全：

$ systemctl set-property user-1000.slice
AccuracySec=            CPUAccounting=          Environment=            LimitCPU=               LimitNICE=              LimitSIGPENDING=        SendSIGKILL=
BlockIOAccounting=      CPUQuota=               Group=                  LimitDATA=              LimitNOFILE=            LimitSTACK=             User=
BlockIODeviceWeight=    CPUShares=              KillMode=               LimitFSIZE=             LimitNPROC=             MemoryAccounting=       WakeSystem=
BlockIOReadBandwidth=   DefaultDependencies=    KillSignal=             LimitLOCKS=             LimitRSS=               MemoryLimit=
BlockIOWeight=          DeviceAllow=            LimitAS=                LimitMEMLOCK=           LimitRTPRIO=            Nice=
BlockIOWriteBandwidth=  DevicePolicy=           LimitCORE=              LimitMSGQUEUE=          LimitRTTIME=            SendSIGHUP=

這裏有不少屬性能夠設置，但並非全部的屬性都是用來設置 cgroup 的，咱們只須要關注 Block, CPU 和 Memory。

若是你想經過配置文件來設置 cgroup，service 能夠直接在 /etc/systemd/system/xxx.service.d 目錄下面建立相應的配置文件，slice 能夠直接在 /run/systemd/system/xxx.slice.d 目錄下面建立相應的配置文件。事實上經過 systemctl 命令行工具設置 cgroup 也會寫到該目錄下的配置文件中：

$ cat /run/systemd/system/user-1000.slice.d/50-CPUQuota.conf
[Slice]
CPUQuota=20%

查看對應的 cgroup 參數：

$ cat /sys/fs/cgroup/cpu,cpuacct/user.slice/user-1000.slice/cpu.cfs_period_us
100000

$ cat /sys/fs/cgroup/cpu,cpuacct/user.slice/user-1000.slice/cpu.cfs_quota_us
20000

這表示用戶 tom 在一個使用週期內（100 毫秒）可使用 20 毫秒的 CPU 時間。無論 CPU 是否空閒，該用戶使用的 CPU 資源都不會超過這個限制。