這是 Cgroup 系列的第四篇,往期回顧:node
經過上篇文章的學習,咱們學會了如何查看當前 cgroup 的信息,如何經過操做 /sys/fs/cgroup
目錄來動態設置 cgroup,也學會了如何設置 CPU shares 和 CPU quota 來控制 slice
內部以及不一樣 slice
之間的 CPU 使用時間。本文將繼續探討對 CPU 使用時間的限制。docker
對於某些 CPU 密集型的程序來講,不只須要獲取更多的 CPU 使用時間,還要減小工做負載在節流時引發的上下文切換。如今的多核系統中每一個核心都有本身的緩存,若是頻繁的調度進程在不一樣的核心上執行勢必會帶來緩存失效等開銷。那麼有沒有方法針對 CPU 核心進行隔離呢?準確地說是把運行的進程綁定到指定的核心上運行。雖然對於操做系統來講,全部程序生而平等,但有些程序比其餘程序更平等。api
對於那些更平等的程序來講,咱們須要爲它分配更多的 CPU 資源,畢竟人都是很偏愛的。廢話少說,咱們來看看如何使用 cgroup
限制進程使用指定的 CPU 核心。緩存
CPU 核心的編號通常是從 0 開始的,4 個核心的編號範圍是 0-3
。咱們能夠經過查看 /proc/cpuinfo
的內容來肯定 CPU 的某些信息:bash
$ cat /proc/cpuinfo ... processor : 3 vendor_id : GenuineIntel cpu family : 6 model : 26 model name : Intel(R) Xeon(R) CPU X5650 @ 2.67GHz stepping : 4 microcode : 0x1f cpu MHz : 2666.761 cache size : 12288 KB physical id : 6 siblings : 1 core id : 0 cpu cores : 1 apicid : 6 initial apicid : 6 fpu : yes fpu_exception : yes cpuid level : 11 wp : yes flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss syscall nx rdtscp lm constant_tsc arch_perfmon nopl xtopology tsc_reliable nonstop_tsc eagerfpu pni ssse3 cx16 sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer hypervisor lahf_lm ssbd ibrs ibpb stibp tsc_adjust arat spec_ctrl intel_stibp flush_l1d arch_capabilities bogomips : 5333.52 clflush size : 64 cache_alignment : 64 address sizes : 43 bits physical, 48 bits virtual
processor
: 表示核心的編號,但這不是物理 CPU 的核心,更確切地能夠稱之爲**邏輯覈編號。physical id
: 表示當前邏輯核所在的物理 CPU 的核心,也是從 0 開始編號,這裏表示這個邏輯核在第 7 個 物理 CPU 上。core id
: 若是這個值大於 0,你就要注意了,你的服務器可能開啓了超線程。若是啓用了超線程,每一個物理 CPU 核心會模擬出 2 個線程,也叫邏輯核(和上面的邏輯核是兩回事,只是名字相同而已)。若是你想確認服務器有沒有開啓超線程,能夠經過下面的命令查看:$ cat /proc/cpuinfo | grep -e "core id" -e "physical id" physical id : 0 core id : 0 physical id : 2 core id : 0 physical id : 4 core id : 0 physical id : 6 core id : 0
若是 physical id
和 core id
皆相同的 processor
出現了兩次,就能夠判定開啓了超線程。顯然個人服務器沒有開啓。服務器
這裏須要涉及到一個概念叫 NUMA(Non-uniform memory access),即非統一內存訪問架構。若是主機板上插有多塊 CPU,那麼就是 NUMA
架構。每塊 CPU 獨佔一塊麪積,通常都有獨立風扇。微信
一個 NUMA
節點包含了直連在該區域的 CPU、內存等硬件設備,通訊總線通常是 PCI-E
。由此也引入了 CPU 親和性的概念,即 CPU 訪問同一個 NUMA
節點上的內存的速度大於訪問另外一個節點的。架構
能夠經過下面的命令查看本機的 NUMA 架構:dom
$ numactl --hardware available: 1 nodes (0) node 0 cpus: 0 1 2 3 node 0 size: 2047 MB node 0 free: 1335 MB node distances: node 0 0: 10
能夠看出該服務器並無使用 NUMA
架構,總共只有一個 NUMA
節點,即只有一塊 CPU,4 個邏輯核心均在此 CPU 上。工具
Linux 最重要的職責之一就是調度進程,而進程只是程序運行過程的一種抽象,它會執行一系列指令,計算機會按照這些指令來完成實際工做。從硬件的角度來看,真正執行這些指令的是中央處理單元,即 CPU。默認狀況下,進程調度器可能會將進程調度到任何一個 CPU 核心上,由於它要根據負載來均衡計算資源的分配。
爲了增長實驗的明顯效果,能夠隔離某些邏輯核心,讓系統默認狀況下永遠不會使用這些核心,除非我指定某些進程使用這些核心。要想作到這一點,就要使用到內核參數 isolcpus
了,例如:若是想讓系統默認狀況下不使用邏輯核心 2,3 和 4,能夠將如下內容添加到內核參數列表中:
isolcpus=1,2,3 # 或者 isolcpus=1-3
對於 CnetOS 7 來講,能夠直接修改 /etc/default/grub
:
$ cat /etc/default/grub GRUB_TIMEOUT=5 GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)" GRUB_DEFAULT=saved GRUB_DISABLE_SUBMENU=true GRUB_TERMINAL_OUTPUT="console" GRUB_CMDLINE_LINUX="crashkernel=auto rd.lvm.lv=rhel/root rd.lvm.lv=rhel/swap rhgb quiet isolcpus=1,2,3" GRUB_DISABLE_RECOVERY="true"
而後從新構建 grub.conf
:
$ grub2-mkconfig -o /boot/grub2/grub.cfg
重啓系統以後,系統將再也不使用邏輯核心 2,3 和 4,只會使用核心 1。找個程序把 CPU 跑滿(上篇文章用的程序),使用命令 top 查看 CPU 的使用情況:
執行
top
命令後,在列表頁按數字 1 鍵,就能夠看到全部 CPU 了。
能夠看到系統只使用了核心 1,下面咱們來看看如何將程序綁到特定的 CPU 核心上。
將程序綁到指定的核心其實很簡單,只需設置好 cpuset
控制器就好了。 systemctl
能夠管理受其控制資源的 cgroup
控制器,但只能管理有限的控制器(CPU、內存和 BlockIO),不能管理 cpuset
控制器。雖然 systemd
不支持 cpuset,可是相信之後會支持的,另外,如今有一個略顯笨拙,可是能夠實現一樣的目標的方法,後面會介紹。
cgroup 相關的全部操做都是基於內核中的 cgroup virtual filesystem,使用 cgroup 很簡單,掛載這個文件系統就能夠了。文件系統默認狀況下都是掛載到 /sys/fs/cgroup
目錄下,查看一下這個目錄:
$ ll /sys/fs/cgroup 總用量 0 drwxr-xr-x 2 root root 0 3月 28 2020 blkio lrwxrwxrwx 1 root root 11 3月 28 2020 cpu -> cpu,cpuacct lrwxrwxrwx 1 root root 11 3月 28 2020 cpuacct -> cpu,cpuacct drwxr-xr-x 2 root root 0 3月 28 2020 cpu,cpuacct drwxr-xr-x 2 root root 0 3月 28 2020 cpuset drwxr-xr-x 4 root root 0 3月 28 2020 devices drwxr-xr-x 2 root root 0 3月 28 2020 freezer drwxr-xr-x 2 root root 0 3月 28 2020 hugetlb drwxr-xr-x 2 root root 0 3月 28 2020 memory lrwxrwxrwx 1 root root 16 3月 28 2020 net_cls -> net_cls,net_prio drwxr-xr-x 2 root root 0 3月 28 2020 net_cls,net_prio lrwxrwxrwx 1 root root 16 3月 28 2020 net_prio -> net_cls,net_prio drwxr-xr-x 2 root root 0 3月 28 2020 perf_event drwxr-xr-x 2 root root 0 3月 28 2020 pids drwxr-xr-x 4 root root 0 3月 28 2020 systemd
能夠看到 cpuset
控制器已經默認被建立並掛載好了。看一下 cpuset
目錄下有什麼:
$ ll /sys/fs/cgroup/cpuset 總用量 0 -rw-r--r-- 1 root root 0 3月 28 2020 cgroup.clone_children --w--w--w- 1 root root 0 3月 28 2020 cgroup.event_control -rw-r--r-- 1 root root 0 3月 28 2020 cgroup.procs -r--r--r-- 1 root root 0 3月 28 2020 cgroup.sane_behavior -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.cpu_exclusive -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.cpus -r--r--r-- 1 root root 0 3月 28 2020 cpuset.effective_cpus -r--r--r-- 1 root root 0 3月 28 2020 cpuset.effective_mems -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.mem_exclusive -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.mem_hardwall -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.memory_migrate -r--r--r-- 1 root root 0 3月 28 2020 cpuset.memory_pressure -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.memory_pressure_enabled -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.memory_spread_page -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.memory_spread_slab -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.mems -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.sched_load_balance -rw-r--r-- 1 root root 0 3月 28 2020 cpuset.sched_relax_domain_level -rw-r--r-- 1 root root 0 3月 28 2020 notify_on_release -rw-r--r-- 1 root root 0 3月 28 2020 release_agent -rw-r--r-- 1 root root 0 3月 28 2020 tasks
該目錄下只有默認的配置,沒有任何 cgroup 子系統。接下來咱們來建立 cpuset
子系統並設置相應的綁核參數:
$ mkdir -p /sys/fs/cgroup/cpuset/test $ echo "3" > /sys/fs/cgroup/cpuset/test/cpuset.cpus $ echo "0" > /sys/fs/cgroup/cpuset/test/cpuset.mems
首先建立了一個 cpuset 子系統叫 test
,而後將核心 4 綁到該子系統,即 cpu3
。對於 cpuset.mems
參數而言,每一個內存節點和 NUMA
節點一一對應。若是進程的內存需求量較大,能夠把全部的 NUMA
節點都配置進去。這裏就用到了 NUMA
的概念。出於性能的考慮,配置的邏輯核和內存節點通常屬於同一個 NUMA
節點,可用 numactl --hardware
命令獲知它們的映射關係。很顯然,個人主機沒有采用 NUMA
架構,只需將其設爲節點 0 就行了。
查看 test
目錄:
$ cd /sys/fs/cgroup/cpuset/test $ ll 總用量 0 -rw-rw-r-- 1 root root 0 3月 28 17:07 cgroup.clone_children --w--w---- 1 root root 0 3月 28 17:07 cgroup.event_control -rw-rw-r-- 1 root root 0 3月 28 17:07 cgroup.procs -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.cpu_exclusive -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.cpus -r--r--r-- 1 root root 0 3月 28 17:07 cpuset.effective_cpus -r--r--r-- 1 root root 0 3月 28 17:07 cpuset.effective_mems -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.mem_exclusive -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.mem_hardwall -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.memory_migrate -r--r--r-- 1 root root 0 3月 28 17:07 cpuset.memory_pressure -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.memory_spread_page -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.memory_spread_slab -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.mems -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.sched_load_balance -rw-rw-r-- 1 root root 0 3月 28 17:07 cpuset.sched_relax_domain_level -rw-rw-r-- 1 root root 0 3月 28 17:07 notify_on_release -rw-rw-r-- 1 root root 0 3月 28 17:07 tasks $ cat cpuset.cpus 3 $ cat cpuset.mems 0
目前 tasks 文件是空的,也就是說,尚未進程運行在該 cpuset 子系統上。須要想辦法讓指定的進程運行在該子系統上,有兩種方法:
PID
寫入 tasks
文件中;systemd
建立一個守護進程,將 cgroup 的設置寫入 service
文件中(本質上和方法 1 是同樣的)。先來看看方法 1,首先運行一個程序:
$ nohup sha1sum /dev/zero & [1] 3767
而後將 PID
寫入 test 目錄的 tasks
中:
$ echo "3767" > /sys/fs/cgroup/cpuset/test/tasks
查看 CPU 使用狀況:
能夠看到綁核生效了,PID
爲 3767 的進程被調度到了 cpu3
上。
下面再來看看方法 2,雖然目前 systemd
不支持使用 cpuset
去指定一個 Service 的 CPU,但咱們仍是有一個變相的方法,Service 文件內容以下:
$ cat /etc/systemd/system/foo.service [Unit] Description=foo After=syslog.target network.target auditd.service [Service] ExecStartPre=/usr/bin/mkdir -p /sys/fs/cgroup/cpuset/testset ExecStartPre=/bin/bash -c '/usr/bin/echo "2" > /sys/fs/cgroup/cpuset/testset/cpuset.cpus' ExecStartPre=/bin/bash -c '/usr/bin/echo "0" > /sys/fs/cgroup/cpuset/testset/cpuset.mems' ExecStart=/bin/bash -c "/usr/bin/sha1sum /dev/zero" ExecStartPost=/bin/bash -c '/usr/bin/echo $MAINPID > /sys/fs/cgroup/cpuset/testset/tasks' ExecStopPost=/usr/bin/rmdir /sys/fs/cgroup/cpuset/testset Restart=on-failure [Install] WantedBy=multi-user.target
啓動該服務,而後查看 CPU 使用狀況:
該服務中的進程確實被調度到了 cpu2
上。
最後咱們回到 Docker
,Docker
實際上就是將系統底層實現的 cgroup
、 namespace
等技術集成在一個使用鏡像方式發佈的工具中,因而造成了 Docker
,這個想必你們都知道了,我就不展開了。對於 Docker 來講,有沒有辦法讓容器始終在一個或某幾個 CPU
上運行呢?其實仍是很簡單的,只須要利用 --cpuset-cpus
參數就能夠作到!
下面就來演示一下,指定運行容器的 CPU
核心編號爲 1:
🐳 → docker run -d --name stress --cpuset-cpus="1" progrium/stress -c 4
查看主機 CPU 的負載:
只有 Cpu1
達到了 100%
,其它的 CPU 並未被容器使用。
若是你看過該系列的第一篇文章,應該知道,在新的使用 systemd
實現 init
的系統中(好比 ConetOS 7
),系統默認建立了 3 個頂級 slice
:System
, User
和 Machine
,其中 machine.slice
是全部虛擬機和 Linux 容器的默認位置,而 Docker 實際上是 machine.slice
的一個變種,你能夠把它當成 machine.slice
。
若是系統中運行的是 Kubernetes,machine.slice
就變成了 kubepods
:
爲了便於管理 cgroup,systemd
會爲每個 slice
建立一個子系統,好比 docker 子系統:
而後再根據容器的設置,將其放入相應的控制器下面,這裏咱們關心的是 cpuset
控制器,看看它的目錄下有啥:
查看 docker 目錄:
能夠看到 Docker 爲每一個容器建立了一個子目錄,7766..
對應的就是以前咱們建立的容器:
🐳 → docker ps|grep stress 7766580dd0d7 progrium/stress "/usr/bin/stress --v…" 36 minutes ago Up 36 minutes stress
咱們來檢驗一下該目錄下的配置:
$ cd /sys/fs/cgroup/cpuset/docker/7766580dd0d7d9728f3b603ed470b04d0cac1dd923f7a142fec614b12a4ba3be $ cat cpuset.cpus 1 $ cat cpuset.mems 0 $ cat tasks 6536 6562 6563 6564 6565 $ ps -ef|grep stress root 6536 6520 0 10:08 ? 00:00:00 /usr/bin/stress --verbose -c 4 root 6562 6536 24 10:08 ? 00:09:50 /usr/bin/stress --verbose -c 4 root 6563 6536 24 10:08 ? 00:09:50 /usr/bin/stress --verbose -c 4 root 6564 6536 24 10:08 ? 00:09:50 /usr/bin/stress --verbose -c 4 root 6565 6536 24 10:08 ? 00:09:50 /usr/bin/stress --verbose -c 4
固然,你也能夠將容器綁到多個 CPU 核心上運行,這裏我就不贅述了。下篇文章將會介紹如何經過 cgroup 來限制 BlockIO
。
掃一掃下面的二維碼關注微信公衆號,在公衆號中回覆◉加羣◉便可加入咱們的雲原生交流羣,和孫宏亮、張館長、陽明等大佬一塊兒探討雲原生技術