平常運維命令w/vmstat、top、sar、nload

時間 2019-11-08

標籤平常命令 vmstat sar nload 欄目 Linux 简体版

原文原文鏈接

10月23日任務linux

10.1 使用w查看系統負載nginx

10.2 vmstat命令web

10.3 top命令shell

10.4 sar命令數據庫

10.5 nload命令apache

10.1 、使用w查看系統負載centos

監控系統負載api

w/uptime 查看系統負載緩存
cat /proc/cpuinfo 查看CPU核數服務器
vmstat 監控系統狀態
用法 vmstat 1
關鍵的幾列：r , b , swpd , si ,so ,bo ,us ,wa
top查看進程使用資源狀況
top -c 顯示詳細的進程信息
top -bn1 靜態顯示全部進程
q 退出，數字1顯示全部核CPU，大寫字母M按內存使用排序
大寫字母P按cpu使用排序

#主要看標顏色部門，表示一分鐘內系統負載，0表示空閒，值在cpu核數範圍內表示合理。

[root@centos6 ~]# w
14:40:05 up 6 days,  4:08,  1 user,  load average: 0.00, 0.01, 0.05
USER     TTY      FROM              LOGIN@   IDLE   JCPU   PCPU WHAT
root     pts/0    192.168.12.123   14:24    0.00s  0.03s  0.00s w
[root@centos6 ~]# uptime
14:41:48 up 6 days,  4:10,  2 users,  load average: 0.00, 0.01, 0.05
[root@centos6 ~]# cat /proc/cpuinfo
processor    : 0                    #主要看這個值，0表示1個邏輯cpu ,1表示2個，以此類推,最大值爲7
vendor_id    : GenuineIntel
cpu family    : 6
model        : 79
model name    : Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz
stepping    : 1
microcode    : 184549409
cpu MHz        : 2199.998
cache size    : 30720 KB
physical id    : 0
siblings    : 1
core id        : 0
cpu cores    : 1
apicid        : 0
initial apicid    : 0
fpu        : yes
fpu_exception    : yes
cpuid level    : 20
wp        : yes
flags        : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss syscall nx pdpe1gb rdtscp lm constant_tsc up arch_perfmon pebs bts xtopology tsc_reliable nonstop_tsc aperfmperf unfair_spinlock pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch ida arat epb xsaveopt pln pts dtherm fsgsbase bmi1 hle avx2 smep bmi2 invpcid rtm rdseed adx

bogomips    : 4399.99
clflush size    : 64
cache_alignment    : 64
address sizes    : 42 bits physical, 48 bits virtual
power management:

10.2 vmstat命令能夠展示給定時間間隔的服務器的狀態值,包括服務器的CPU使用率，內存使用，虛擬內存交換狀況,IO讀寫狀況。

[root@centos6 ~]# vmstat
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  0      0 902680  12288  34600    0    0     0     0    6    7  0  0 100  0  0    
[root@centos6 ~]# vmstat 1                            #  1表示1秒鐘顯示一次
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  0      0 902680  12296  34620    0    0     0     0    6    7  0  0 100  0  0    
0  0      0 902664  12296  34620    0    0     0     0   14   13  0  0 100  0  0   
0  0      0 902664  12296  34620    0    0     0     0   10   10  0  0 100  0  0   
0  0      0 902664  12296  34620    0    0     0     0   14   13  0  0 100  0  0   
0  0      0 902664  12296  34620    0    0     0     0   11   10  0  0 100  0  0   
C

[root@centos6 ~]# vmstat 1 5                      #  1表示1秒鐘顯示一次 ，5表示顯示5次結束
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  0      0 902680  12296  34620    0    0     0     0    6    7  0  0 100  0  0    
0  0      0 902664  12296  34620    0    0     0     0   15   17  0  0 100  0  0   
0  0      0 902664  12296  34620    0    0     0     0   13   13  0  0 100  0  0   
0  0      0 902664  12296  34620    0    0     0     0   10   11  0  0 100  0  0   
0  0      0 902664  12296  34620    0    0     0     0   15   14  0  0 100  0  0

r 表示運行隊列(就是說多少個進程真的分配到CPU)，我測試的服務器目前CPU比較空閒，沒什麼程序在跑，當這個值超過了CPU數目，就會出現CPU瓶頸了。這個也和top的負載有關係，通常負載超過了3就比較高，超過了5就高，超過了10就不正常了，服務器的狀態很危險。top的負載相似每秒的運行隊列。若是運行隊列過大，表示你的CPU很繁忙，通常會形成CPU使用率很高。

b 表示阻塞的進程,這個很少說，進程阻塞，你們懂的。

swpd 虛擬內存已使用的大小，若是大於0，表示你的機器物理內存不足了，若是不是程序內存泄露的緣由，那麼你該升級內存了或者把耗內存的任務遷移到其餘機器。

free 空閒的物理內存的大小，個人機器內存總共8G，剩餘3415M。

buff Linux/Unix系統是用來存儲，目錄裏面有什麼內容，權限等的緩存，我本機大概佔用300多M

cache cache直接用來記憶咱們打開的文件,給文件作緩衝，我本機大概佔用300多M(這裏是Linux/Unix的聰明之處，把空閒的物理內存的一部分拿來作文件和目錄的緩存，是爲了提升程序執行的性能，當程序使用內存時，buffer/cached會很快地被使用。)

si 每秒從磁盤讀入虛擬內存的大小，若是這個值大於0，表示物理內存不夠用或者內存泄露了，要查找耗內存進程解決掉。個人機器內存充裕，一切正常。

so 每秒虛擬內存寫入磁盤的大小，若是這個值大於0，同上。

bi 每秒從塊設備接收到的塊數，即讀塊設備，這裏的塊設備是指系統上全部的磁盤和其餘塊設備，默認塊大小是1024byte，我本機上沒什麼IO操做，因此一直是0，可是我曾在處理拷貝大量數據(2-3T)的機器上看過能夠達到140000/s，磁盤寫入速度差很少140M每秒

bo 每秒發送到塊設備的塊數，即寫塊設備，例如咱們讀取文件，bo就要大於0。bi和bo通常都要接近0，否則就是IO過於頻繁，須要調整。

in 每秒CPU的中斷次數，包括時間中斷

cs 每秒上下文切換次數，例如咱們調用系統函數，就要進行上下文切換，線程的切換，也要進程上下文切換，這個值要越小越好，太大了，要考慮調低線程或者進程的數目,例如在apache和nginx這種web服務器中，咱們通常作性能測試時會進行幾千併發甚至幾萬併發的測試，選擇web服務器的進程能夠由進程或者線程的峯值一直下調，壓測，直到cs到一個比較小的值，這個進程和線程數就是比較合適的值了。系統調用也是，每次調用系統函數，咱們的代碼就會進入內核空間，致使上下文切換，這個是很耗資源，也要儘可能避免頻繁調用系統函數。上下文切換次數過多表示你的CPU大部分浪費在上下文切換，致使CPU幹正經事的時間少了，CPU沒有充分利用，是不可取的。

us 用戶CPU資源佔用百分比，我曾經在一個作加密解密很頻繁的服務器上，能夠看到us接近100,r運行隊列達到80(機器在作壓力測試，性能表現不佳)。

sy 系統CPU資源佔用百分比，若是過高，表示系統調用時間長，例如是IO操做頻繁。

id 空閒 CPU資源佔用百分比，通常來講，id + us + sy = 100,通常我認爲id是空閒CPU使用率，us是用戶CPU使用率，sy是系統CPU使用率。

wt 等待IO CPU時間。

10.3 、top 命令

top命令是Linux下經常使用的性能分析工具，可以實時顯示系統中各個進程的資源佔用情況，相似於Windows的任務管理器。

top顯示系統當前的進程和其餘情況,是一個動態顯示過程,便可以經過用戶按鍵來不斷刷新當前狀態.若是在前臺執行該命令,它將獨佔前臺,直到用戶終止該程序爲止. 比較準確的說,top命令提供了實時的對系統處理器的狀態監視.它將顯示系統中CPU最「敏感」的任務列表.該命令能夠按CPU使用.內存使用和執行時間對任務進行排序；並且該命令的不少特性均可以經過交互式命令或者在我的定製文件中進行設定.

top - 19:43:36 up 1 min,  1 user,  load average: 0.44, 0.22, 0.08
Tasks:  97 total,   1 running,  96 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  1006924 total,   741380 free,   125868 used,   139676 buff/cache
KiB Swap:  2097148 total,  2097148 free,        0 used.   720680 avail Mem
  PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND         

    1 root      20   0  128000   6524   4124 S  0.0  0.6   0:02.05 systemd          
    2 root      20   0       0      0      0 S  0.0  0.0   0:00.00 kthreadd         
    3 root      20   0       0      0      0 S  0.0  0.0   0:00.10 ksoftirqd/0      
    4 root      20   0       0      0      0 S  0.0  0.0   0:00.00 kworker/0:0      
    5 root       0 -20       0      0      0 S  0.0  0.0   0:00.00 kworker/0:0H     
    6 root      20   0       0      0      0 S  0.0  0.0   0:00.02 kworker/u128:0   
    7 root      rt   0       0      0      0 S  0.0  0.0   0:00.00 migration/0      
    8 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcu_bh           
    9 root      20   0       0      0      0 S  0.0  0.0   0:00.73 rcu_sched        
   10 root       0 -20       0      0      0 S  0.0  0.0   0:00.00 lru-add-drain

在 linux 系統中，通常把進程和線程統稱爲任務。第二行信息是對當前系統中全部任務的統計：

Tasks:97total 表示當前系統的進程總數。

1 running 表示當前系統中有 1 個正在運行的進程。

96 sleeping 表示當前系統中有 269 個休眠的進程。

0 stopped 表示中止狀態的進程數爲 0。

0 zombie 表示處於僵死狀態的進程數爲 0。

CPU 信息

第三行顯示 CPU 的使用狀況：

這裏一共有八個字段，是咱們瞭解 CPU 負載的主要依據，下面咱們逐一介紹。

進程在用戶地址空間中消耗 CPU 時間的百分比。像 shell程序、各類語言的編譯器、數據庫應用、web 服務器和各類桌面應用都算是運行在用戶地址空間的進程。這些程序若是不是處於 idle 狀態，那麼絕大多數的 CPU 時間都是運行在用戶態。

進程在內核地址空間中消耗 CPU 時間的百分比。全部進程要使用的系統資源都是由 Linux 內核處理的。當處於用戶態(用戶地址空間)的進程須要使用系統的資源時，好比須要分配一些內存、或是執行 IO 操做、再或者是去建立一個子進程，此時就會進入內核態(內核地址空間)運行。事實上，決定進程在下一時刻是否會被運行的進程調度程序就運行在內核態。對於操做系統的設計來講，消耗在內核態的時間應該是越少越好。在實踐中有一類典型的狀況會使 sy 變大，那就是大量的 IO 操做，所以在調查 IO 相關的問題時須要着重關注它。

ni 是 nice 的縮寫，能夠經過 nice 值調整進程用戶態的優先級。這裏顯示的 ni 表示調整過 nice 值的進程消耗掉的 CPU 時間。若是系統中沒有進程被調整過 nice 值，那麼 ni 就顯示爲 0。

CPU 處於 idle 狀態的百分比。通常狀況下， us + ni + id 應該接近 100%。

CPU 等待磁盤 IO 操做的時間。和 CPU 的處理速度相比，磁盤 IO 操做是很是慢的。有不少這樣的操做，好比：CPU 在啓動一個磁盤讀寫操做後，須要等待磁盤讀寫操做的結果。在磁盤讀寫操做完成前，CPU 只能處於空閒狀態。Linux 系統在計算系統平均負載時會把 CPU 等待 IO 操做的時間也計算進去，因此在咱們看到系統平均負載太高時，能夠經過 wa 來判斷系統的性能瓶頸是否是過多的 IO 操做形成的。

hi & si

這兩個值表示系統處理中斷消耗的時間。中斷分爲硬中斷和軟中斷，hi 表示處理硬中斷消耗的時間，si 表示處理軟中斷消耗的時間。硬中斷是硬盤、網卡等硬件設備發送給 CPU 的中斷消息，當 CPU 收到中斷消息後須要進行適當的處理(消耗 CPU 時間)。軟中斷是由程序發出的中斷，最終也會執行相應的處理程序(消耗 CPU 時間)。

只有 Linux 在做爲虛擬機運行時 st 纔是有意義的。它表示虛機等待 CPU 資源的時間(虛機分到的是虛擬 CPU，當須要真實的 CPU 時，可能真實的 CPU 正在運行其它虛機的任務，因此須要等待)。

小寫字母 t 能夠控制是否顯示任務信息彙總和 CPU 信息。沒錯，它能控制是否顯示兩行信息。

10.4 、sar命令功能豐富，被人們稱爲Linux中的瑞士軍刀

yum install -y sysstat
sar -n DEV 網卡流量
sar -q 系統負載
sar -b 磁盤讀寫
sar -f /var/log/sa/saxx 歷史文件
nload 命令
yum install -y eple-release
yum install -y nload

#sar -n DEV 1 3 表示查看網卡流量 1秒鐘刷新一次，刷新3次。

rxpck /s表示每秒接收到的數據包量 ,若是數值在幾千之內是正常狀況，超過一萬就是非正常，可能被共計。rxkB/s表示每秒發送

[root@centos6 ~]# sar -n DEV 1 3
Linux 2.6.32-642.el6.x86_64 (centos6.8)     10/24/2018     _x86_64_    (1 CPU)

10:14:49 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
10:14:50 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
10:14:50 AM      eth0      3.00      0.00      0.18      0.00      0.00      0.00      0.00

10:14:50 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
10:14:51 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
10:14:51 AM      eth0      3.03      1.01      0.18      0.40      0.00      0.00      0.00

10:14:51 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
10:14:52 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
10:14:52 AM      eth0      3.00      1.00      0.18      0.39      0.00      0.00      0.00

Average:        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
Average:           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:         eth0      3.01      0.67      0.18      0.26      0.00      0.00      0.00

#查看負載: sar -q

[root@centos6 ~]# sar -q 1 5
Linux 2.6.32-642.el6.x86_64 (centos6.8)     10/24/2018     _x86_64_      (1 CPU)

11:05:55 AM   runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15
11:05:56 AM         0        79      0.00      0.01      0.05
11:05:57 AM         0        79      0.00      0.01      0.05
11:05:58 AM         0        79      0.00      0.01      0.05
11:05:59 AM         0        79      0.00      0.01      0.05
11:06:00 AM         0        79      0.00      0.01      0.05
Average:            0        79      0.00      0.01      0.05

10.5 nload 命令監控網卡流量,incoming:接入帶寬，outgoing:出去帶寬。

[root@centos6 ~]# nload