深刻理解 Linux Cgroup 系列(一):基本概念

原文連接:深刻理解 Linux Cgroup 系列(一):基本概念html

Cgroup 是 Linux kernel 的一項功能:它是在一個系統中運行的層級制進程組,你可對其進行資源分配(如 CPU 時間、系統內存、網絡帶寬或者這些資源的組合)。經過使用 cgroup,系統管理員在分配、排序、拒絕、管理和監控系統資源等方面,能夠進行精細化控制。硬件資源能夠在應用程序和用戶間智能分配,從而增長總體效率。linux

cgroup 和 namespace 相似,也是將進程進行分組,但它的目的和 namespace 不同,namespace 是爲了隔離進程組之間的資源,而 cgroup 是爲了對一組進程進行統一的資源監控和限制。segmentfault

cgroup 分 v1v2 兩個版本,v1 實現較早,功能比較多,可是因爲它裏面的功能都是零零散散的實現的,因此規劃的不是很好,致使了一些使用和維護上的不便,v2 的出現就是爲了解決 v1 中這方面的問題,在最新的 4.5 內核中,cgroup v2 聲稱已經能夠用於生產環境了,但它所支持的功能還頗有限,隨着 v2 一塊兒引入內核的還有 cgroup namespace。v1 和 v2 能夠混合使用,可是這樣會更復雜,因此通常沒人會這樣用。bash

1. 爲何須要 cgroup


在 Linux 裏,一直以來就有對進程進行分組的概念和需求,好比 session group, progress group 等,後來隨着人們對這方面的需求愈來愈多,好比須要追蹤一組進程的內存和 IO 使用狀況等,因而出現了 cgroup,用來統一將進程進行分組,並在分組的基礎上對進程進行監控和資源控制管理等。網絡

2. 什麼是 cgroup


術語 cgroup 在不一樣的上下文中表明不一樣的意思,能夠指整個 Linux 的 cgroup 技術,也能夠指一個具體進程組。session

cgroup 是 Linux 下的一種將進程按組進行管理的機制,在用戶層看來,cgroup 技術就是把系統中的全部進程組織成一顆一顆獨立的樹,每棵樹都包含系統的全部進程,樹的每一個節點是一個進程組,而每顆樹又和一個或者多個 subsystem 關聯,樹的做用是將進程分組,而 subsystem 的做用就是對這些組進行操做。cgroup 主要包括下面兩部分:ssh

  • subsystem : 一個 subsystem 就是一個內核模塊,他被關聯到一顆 cgroup 樹以後,就會在樹的每一個節點(進程組)上作具體的操做。subsystem 常常被稱做 resource controller,由於它主要被用來調度或者限制每一個進程組的資源,可是這個說法不徹底準確,由於有時咱們將進程分組只是爲了作一些監控,觀察一下他們的狀態,好比 perf_event subsystem。到目前爲止,Linux 支持 12 種 subsystem,好比限制 CPU 的使用時間,限制使用的內存,統計 CPU 的使用狀況,凍結和恢復一組進程等,後續會對它們一一進行介紹。
  • hierarchy : 一個 hierarchy 能夠理解爲一棵 cgroup 樹,樹的每一個節點就是一個進程組,每棵樹都會與零到多個 subsystem 關聯。在一顆樹裏面,會包含 Linux 系統中的全部進程,但每一個進程只能屬於一個節點(進程組)。系統中能夠有不少顆 cgroup 樹,每棵樹都和不一樣的 subsystem 關聯,一個進程能夠屬於多顆樹,即一個進程能夠屬於多個進程組,只是這些進程組和不一樣的 subsystem 關聯。目前 Linux 支持 12 種 subsystem,若是不考慮不與任何 subsystem 關聯的狀況(systemd 就屬於這種狀況),Linux 裏面最多能夠建 12 顆 cgroup 樹,每棵樹關聯一個 subsystem,固然也能夠只建一棵樹,而後讓這棵樹關聯全部的 subsystem。當一顆 cgroup 樹不和任何 subsystem 關聯的時候,意味着這棵樹只是將進程進行分組,至於要在分組的基礎上作些什麼,將由應用程序本身決定,systemd 就是一個這樣的例子。

3. 將資源看做一塊餅


CentOS 7 系統中(包括 Red Hat Enterprise Linux 7),經過將 cgroup 層級系統與 systemd 單位樹捆綁,能夠把資源管理設置從進程級別移至應用程序級別。默認狀況下,systemd 會自動建立 slicescopeservice 單位的層級(具體的意思稍後再解釋),來爲 cgroup 樹提供統一結構。能夠經過 systemctl 命令建立自定義 slice 進一步修改此結構。工具

若是咱們將系統的資源當作一塊餡餅,那麼全部資源默認會被劃分爲 3 個 cgroup:System, UserMachine。每個 cgroup 都是一個 slice,每一個 slice 均可以有本身的子 slice,以下圖所示:post

下面咱們以 CPU 資源爲例,來解釋一下上圖中出現的一些關鍵詞。性能

如上圖所示,系統默認建立了 3 個頂級 sliceSystem, UserMachine),每一個 slice 都會得到相同的 CPU 使用時間(僅在 CPU 繁忙時生效),若是 user.slice 想得到 100% 的 CPU 使用時間,而此時 CPU 比較空閒,那麼 user.slice 就可以如願以償。這三種頂級 slice 的含義以下:

  • system.slice —— 全部系統 service 的默認位置
  • user.slice —— 全部用戶會話的默認位置。每一個用戶會話都會在該 slice 下面建立一個子 slice,若是同一個用戶屢次登陸該系統,仍然會使用相同的子 slice。
  • machine.slice —— 全部虛擬機和 Linux 容器的默認位置

控制 CPU 資源使用的其中一種方法是 shares。shares 用來設置 CPU 的相對值(你能夠理解爲權重),而且是針對全部的 CPU(內核),默認值是 1024。所以在上圖中,httpd, sshd, crond 和 gdm 的 CPU shares 均爲 1024,System, User 和 Machine 的 CPU shares 也是 1024

假設該系統上運行了 4 個 service,登陸了兩個用戶,還運行了一個虛擬機。同時假設每一個進程都要求使用盡量多的 CPU 資源(每一個進程都很繁忙)。

  • system.slice 會得到 33.333% 的 CPU 使用時間,其中每一個 service 都會從 system.slice 分配的資源中得到 1/4 的 CPU 使用時間,即 8.25% 的 CPU 使用時間。
  • user.slice 會得到 33.333% 的 CPU 使用時間,其中每一個登陸的用戶都會得到 16.5% 的 CPU 使用時間。假設有兩個用戶:tomjack,若是 tom 註銷登陸或者殺死該用戶會話下的全部進程,jack 就可以使用 33.333% 的 CPU 使用時間。
  • machine.slice 會得到 33.333% 的 CPU 使用時間,若是虛擬機被關閉或處於 idle 狀態,那麼 system.slice 和 user.slice 就會從這 33.333% 的 CPU 資源裏分別得到 50% 的 CPU 資源,而後均分給它們的子 slice。

若是想嚴格控制 CPU 資源,設置 CPU 資源的使用上限,即無論 CPU 是否繁忙,對 CPU 資源的使用都不能超過這個上限。能夠經過如下兩個參數來設置:

cpu.cfs_period_us = 統計CPU使用時間的週期,單位是微秒(us) 
cpu.cfs_quota_us = 週期內容許佔用的CPU時間(指單核的時間,多核則須要在設置時累加)

systemctl 能夠經過 CPUQuota 參數來設置 CPU 資源的使用上限。例如,若是你想將用戶 tom 的 CPU 資源使用上限設置爲 20%,能夠執行如下命令:

$ systemctl set-property user-1000.slice CPUQuota=20%

在使用命令 systemctl set-property 時,可使用 tab 補全:

$ systemctl set-property user-1000.slice
AccuracySec=            CPUAccounting=          Environment=            LimitCPU=               LimitNICE=              LimitSIGPENDING=        SendSIGKILL=
BlockIOAccounting=      CPUQuota=               Group=                  LimitDATA=              LimitNOFILE=            LimitSTACK=             User=
BlockIODeviceWeight=    CPUShares=              KillMode=               LimitFSIZE=             LimitNPROC=             MemoryAccounting=       WakeSystem=
BlockIOReadBandwidth=   DefaultDependencies=    KillSignal=             LimitLOCKS=             LimitRSS=               MemoryLimit=
BlockIOWeight=          DeviceAllow=            LimitAS=                LimitMEMLOCK=           LimitRTPRIO=            Nice=
BlockIOWriteBandwidth=  DevicePolicy=           LimitCORE=              LimitMSGQUEUE=          LimitRTTIME=            SendSIGHUP=

這裏有不少屬性能夠設置,但並非全部的屬性都是用來設置 cgroup 的,咱們只須要關注 Block, CPUMemory

若是你想經過配置文件來設置 cgroup,service 能夠直接在 /etc/systemd/system/xxx.service.d 目錄下面建立相應的配置文件,slice 能夠直接在 /run/systemd/system/xxx.slice.d 目錄下面建立相應的配置文件。事實上經過 systemctl 命令行工具設置 cgroup 也會寫到該目錄下的配置文件中:

$ cat /run/systemd/system/user-1000.slice.d/50-CPUQuota.conf
[Slice]
CPUQuota=20%

查看對應的 cgroup 參數:

$ cat /sys/fs/cgroup/cpu,cpuacct/user.slice/user-1000.slice/cpu.cfs_period_us
100000

$ cat /sys/fs/cgroup/cpu,cpuacct/user.slice/user-1000.slice/cpu.cfs_quota_us
20000

這表示用戶 tom 在一個使用週期內(100 毫秒)可使用 20 毫秒的 CPU 時間。無論 CPU 是否空閒,該用戶使用的 CPU 資源都不會超過這個限制。

CPUQuota 的值能夠超過 100%,例如:若是系統的 CPU 是多核,且 CPUQuota 的值爲 200%,那麼該 slice 就可以使用 2 核的 CPU 時間。

4. 總結


本文主要介紹了 cgroup 的一些基本概念,包括其在 CentOS 系統中的默認設置和控制工具,以 CPU 爲例闡述 cgroup 如何對資源進行控制。下一篇文章將會經過具體的示例來觀察不一樣的 cgroup 設置對性能的影響。

5. 參考資料



相關文章
相關標籤/搜索