深刻理解 Linux Cgroup 系列（二）：玩轉 CPU

時間 2019-12-07

標籤深刻理解 linux cgroup 系列 cpu 欄目 Linux 简体版

原文原文鏈接

原文連接：深刻理解 Linux Cgroup 系列（二）：玩轉 CPUpython

上篇文章主要介紹了 cgroup 的一些基本概念，包括其在 CentOS 系統中的默認設置和控制工具，並以 CPU 爲例闡述 cgroup 如何對資源進行控制。這篇文章將會經過具體的示例來演示如何經過 cgroup 來限制 CPU 的使用以及不一樣的 cgroup 設置對性能的影響。linux

1. 查看當前 cgroup 信息

有兩種方法來查看系統的當前 cgroup 信息。第一種方法是經過 systemd-cgls 命令來查看，它會返回系統的總體 cgroup 層級，cgroup 樹的最高層由 slice 構成，以下所示：bash

$ systemd-cgls --no-page
├─1 /usr/lib/systemd/systemd --switched-root --system --deserialize 22
├─user.slice
│ ├─user-1000.slice
│ │ └─session-11.scope
│ │   ├─9507 sshd: tom [priv]
│ │   ├─9509 sshd: tom@pts/3
│ │   └─9510 -bash
│ └─user-0.slice
│   └─session-1.scope
│     ├─ 6239 sshd: root@pts/0
│     ├─ 6241 -zsh
│     └─11537 systemd-cgls --no-page
└─system.slice
  ├─rsyslog.service
  │ └─5831 /usr/sbin/rsyslogd -n
  ├─sshd.service
  │ └─5828 /usr/sbin/sshd -D
  ├─tuned.service
  │ └─5827 /usr/bin/python2 -Es /usr/sbin/tuned -l -P
  ├─crond.service
  │ └─5546 /usr/sbin/crond -n
複製代碼

能夠看到系統 cgroup 層級的最高層由 user.slice 和 system.slice 組成。由於系統中沒有運行虛擬機和容器，因此沒有 machine.slice，因此當 CPU 繁忙時，user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。session

user.slice 下面有兩個子 slice：user-1000.slice 和 user-0.slice，每一個子 slice 都用 User ID (UID) 來命名，所以咱們很容易識別出哪一個 slice 屬於哪一個用戶。例如：從上面的輸出信息中能夠看出 user-1000.slice 屬於用戶 tom，user-0.slice 屬於用戶 root。ssh

systemd-cgls 命令提供的只是 cgroup 層級的靜態信息快照，要想查看 cgroup 層級的動態信息，能夠經過 systemd-cgtop 命令查看：工具

$ systemd-cgtop
Path                                                                                                                                       Tasks   %CPU   Memory  Input/s Output/s

/                                                                                                                                            161    1.2   161.0M        -        -
/system.slice                                                                                                                                  -    0.1        -        -        -
/system.slice/vmtoolsd.service                                                                                                                 1    0.1        -        -        -
/system.slice/tuned.service                                                                                                                    1    0.0        -        -        -
/system.slice/rsyslog.service                                                                                                                  1    0.0        -        -        -
/system.slice/auditd.service                                                                                                                   1      -        -        -        -
/system.slice/chronyd.service                                                                                                                  1      -        -        -        -
/system.slice/crond.service                                                                                                                    1      -        -        -        -
/system.slice/dbus.service                                                                                                                     1      -        -        -        -
/system.slice/gssproxy.service                                                                                                                 1      -        -        -        -
/system.slice/lvm2-lvmetad.service                                                                                                             1      -        -        -        -
/system.slice/network.service                                                                                                                  1      -        -        -        -
/system.slice/polkit.service                                                                                                                   1      -        -        -        -
/system.slice/rpcbind.service                                                                                                                  1      -        -        -        -
/system.slice/sshd.service                                                                                                                     1      -        -        -        -
/system.slice/system-getty.slice/getty@tty1.service                                                                                            1      -        -        -        -
/system.slice/systemd-journald.service                                                                                                         1      -        -        -        -
/system.slice/systemd-logind.service                                                                                                           1      -        -        -        -
/system.slice/systemd-udevd.service                                                                                                            1      -        -        -        -
/system.slice/vgauthd.service                                                                                                                  1      -        -        -        -
/user.slice                                                                                                                                    3      -        -        -        -
/user.slice/user-0.slice/session-1.scope                                                                                                       3      -        -        -        -
/user.slice/user-1000.slice                                                                                                                    3      -        -        -        -
/user.slice/user-1000.slice/session-11.scope                                                                                                   3      -        -        -        -
/user.slice/user-1001.slice/session-8.scope                                                                                                    3      -        -        -        -
複製代碼

systemd-cgtop 提供的統計數據和控制選項與 top 命令相似，但該命令只顯示那些開啓了資源統計功能的 service 和 slice。好比：若是你想開啓 sshd.service 的資源統計功能，能夠進行以下操做：post

$ systemctl set-property sshd.service CPUAccounting=true MemoryAccounting=true
複製代碼

該命令會在 /etc/systemd/system/sshd.service.d/ 目錄下建立相應的配置文件：性能

$ ll /etc/systemd/system/sshd.service.d/
總用量 8
4 -rw-r--r-- 1 root root 28 5月  31 02:24 50-CPUAccounting.conf
4 -rw-r--r-- 1 root root 31 5月  31 02:24 50-MemoryAccounting.conf

$ cat /etc/systemd/system/sshd.service.d/50-CPUAccounting.conf
[Service]
CPUAccounting=yes

$ cat /etc/systemd/system/sshd.service.d/50-MemoryAccounting.conf
[Service]
MemoryAccounting=yes
複製代碼

配置完成以後，再重啓 sshd 服務：學習

$ systemctl daemon-reload
$ systemctl restart sshd
複製代碼

這時再從新運行 systemd-cgtop 命令，就能看到 sshd 的資源使用統計了：測試

開啓資源使用量統計功能可能會增長系統的負載，由於資源統計也要消耗 CPU 和內存，大多數狀況下使用 top 命令來查看就足夠了。固然了，這是 Linux 系統嘛，一切的控制權都在你本身手裏，你想怎麼作就怎麼作。

2. 分配 CPU 相對使用時間

經過上篇文章的學習咱們知道了 CPU shares 能夠用來設置 CPU 的相對使用時間，接下來咱們就經過實踐來驗證一下。

下面所作的實驗都是在單核 CPU 的系統上進行的，多核與單核的狀況徹底不一樣，文末會單獨討論。

測試對象是 1 個 service 和兩個普通用戶，其中用戶 tom 的 UID 是 1000，能夠經過如下命令查看：

$ cat /etc/passwd|grep tom
tom:x:1000:1000::/home/tom:/bin/bash
複製代碼

建立一個 foo.service：

$ cat /etc/systemd/system/foo.service
[Unit]
Description=The foo service that does nothing useful
After=remote-fs.target nss-lookup.target

[Service]
ExecStart=/usr/bin/sha1sum /dev/zero
ExecStop=/bin/kill -WINCH ${MAINPID}

[Install]
WantedBy=multi-user.target
複製代碼

/dev/zero 在 linux 系統中是一個特殊的設備文件，當你讀它的時候，它會提供無限的空字符，所以 foo.service 會不斷地消耗 CPU 資源。如今咱們將 foo.service 的 CPU shares 改成 2048：

$ mkdir /etc/systemd/system/foo.service.d
$ cat << EOF > /etc/systemd/system/foo.service.d/50-CPUShares.conf
[Service]
CPUShares=2048
EOF
複製代碼

因爲系統默認的 CPU shares 值爲 1024，因此設置成 2048 後，在 CPU 繁忙的狀況下，foo.service 會盡量獲取 system.slice 的全部 CPU 使用時間。

如今經過 systemctl start foo.service 啓動 foo 服務，並使用 top 命令查看 CPU 使用狀況：

目前沒有其餘進程在消耗 CPU，因此 foo.service 可使用幾乎 100% 的 CPU。

如今咱們讓用戶 tom 也參與進來，先將 user-1000.slice 的 CPU shares 設置爲 256：

$ systemctl set-property user-1000.slice CPUShares=256
複製代碼

使用用戶 tom 登陸該系統，而後執行命令 sha1sum /dev/zero，再次查看 CPU 使用狀況：

如今是否是感到有點迷惑了？foo.service 的 CPU shares 是 2048，而用戶 tom 的 CPU shares 只有 256，難道用戶 tom 不是應該只能使用 10% 的 CPU 嗎？回憶一下我在上一節提到的，當 CPU 繁忙時，user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。而這裏剛好就是這種場景，同時 user.slice 下面只有 sha1sum 進程比較繁忙，因此會得到 50% 的 CPU 使用時間。

最後讓用戶 jack 也參與進來，他的 CPU shares 是默認值 1024。使用用戶 jack 登陸該系統，而後執行命令 sha1sum /dev/zero，再次查看 CPU 使用狀況：

上面咱們已經提到，這種場景下 user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。用戶 tom 的 CPU shares 是 256，而用戶 jack 的 CPU shares 是 1024，所以用戶 jack 得到的 CPU 使用時間是用戶 tom 的 4 倍。

3. 分配 CPU 絕對使用時間

上篇文章已經提到，若是想嚴格控制 CPU 資源，設置 CPU 資源的使用上限，即無論 CPU 是否繁忙，對 CPU 資源的使用都不能超過這個上限，能夠經過 CPUQuota 參數來設置。下面咱們將用戶 tom 的 CPUQuota 設置爲 5%：

$ systemctl set-property user-1000.slice CPUQuota=5%
複製代碼

這時你會看到用戶 tom 的 sha1sum 進程只能得到 5% 左右的 CPU 使用時間。

若是此時中止 foo.service，關閉用戶 jack 的 sha1sum 進程，你會看到用戶 tom 的 sha1sum 進程仍然只能得到 5% 左右的 CPU 使用時間。

若是某個非核心服務很消耗 CPU 資源，你能夠經過這種方法來嚴格限制它對 CPU 資源的使用，防止對系統中其餘重要的服務產生影響。

4. 動態設置 cgroup

cgroup 相關的全部操做都是基於內核中的 cgroup virtual filesystem，使用 cgroup 很簡單，掛載這個文件系統就能夠了。系統默認狀況下都是掛載到 /sys/fs/cgroup 目錄下，當 service 啓動時，會將本身的 cgroup 掛載到這個目錄下的子目錄。以 foo.service 爲例：

先進入 system.slice 的 CPU 子系統：

$ cd /sys/fs/cgroup/cpu,cpuacct/system.slice
複製代碼

查看 foo.service 的 cgroup 目錄：

$ ls foo.*
zsh: no matches found: foo.*
複製代碼

由於 foo.service 沒有啓動，因此沒有掛載 cgroup 目錄，如今啓動 foo.service，再次查看它的 cgroup 目錄：

$ ls foo.serice
cgroup.clone_children  cgroup.procs  cpuacct.usage         cpu.cfs_period_us  cpu.rt_period_us   cpu.shares  notify_on_release
cgroup.event_control   cpuacct.stat  cpuacct.usage_percpu  cpu.cfs_quota_us   cpu.rt_runtime_us  cpu.stat    tasks
複製代碼

也能夠查看它的 PID 和 CPU shares：

$ cat foo.service/tasks
20225

$ cat foo.service/cpu.shares
2048
複製代碼

理論上咱們能夠在 /sys/fs/cgroup 目錄中動態改變 cgroup 的配置，但我不建議你在生產環境中這麼作。若是你想經過實驗來深刻理解 cgroup，能夠多折騰折騰這個目錄。

5. 若是是多核 CPU 呢？

上面的全部實驗都是在單核 CPU 上進行的，下面咱們簡單討論一下多核的場景，以 2 個 CPU 爲例。

首先來講一下 CPU shares，shares 只能針對單核 CPU 進行設置，也就是說，不管你的 shares 值有多大，該 cgroup 最多隻能得到 100% 的 CPU 使用時間（即 1 核 CPU）。仍是用本文第 2 節的例子，將 foo.service 的 CPU shares 設置爲 2048，啓動 foo.service，這時你會看到 foo.service 僅僅得到了 100% 的 CPU 使用時間，並無徹底使用兩個 CPU 核：

再使用用戶 tom 登陸系統，執行命令 sha1sum /dev/zero，你會發現用戶 tom 的 sha1sum 進程和 foo.service 各使用 1 個 CPU 核：

再來講說 CPUQuota，這個上篇文章結尾已經提過了，如要讓一個 cgroup 徹底使用兩個 CPU 核，能夠經過 CPUQuota 參數來設置。例如：

$ systemctl set-property foo.service CPUQuota=200%
複製代碼

至於進程最後能不能徹底使用兩個 CPU 核，就要看它自身的設計支持不支持了。

6. 總結

本文經過具體的示例來觀察不一樣的 cgroup 設置對性能的影響，下面一篇文章將會演示如何經過 cgroup 來限制內存的使用。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。