http://embeddedlinux.org.cn/emb-linux/entry-level/201609/28-5701.html
若是你的Linux服務器忽然負載暴增,報警短信快發爆你的手機,如何在最短期內找出Linux性能問題所在?來看Netflix性能工程團隊的這篇博文,看它們經過十條命令在一分鐘內對機器性能問題進行診斷。html
概述前端
經過執行如下命令,能夠在1分鐘內對系統資源使用狀況有個大體的瞭解。java
uptimelinux
dmesg | tailios
vmstat 1docker
mpstat -P ALL 1shell
pidstat 1後端
iostat -xz 1緩存
free -m服務器
sar -n DEV 1
sar -n TCP,ETCP 1
top
其中一些命令須要安裝sysstat包,有一些由procps包提供。這些命令的輸出,有助於快速定位性能瓶頸,檢查出全部資源(CPU、內存、磁盤IO等)的利用率(utilization)、飽和度(saturation)和錯誤(error)度量,也就是所謂的USE方法。
下面咱們來逐一介紹下這些命令,有關這些命令更多的參數和說明,請參照命令的手冊。
uptime
$ uptime
23:51:26 up 21:31, 1 user, load average: 30.02, 26.43, 19.02
這個命令能夠快速查看機器的負載狀況。在Linux系統中,這些數據表示等待CPU資源的進程和阻塞在不可中斷IO進程(進程狀態爲D)的數量。這些數據可讓咱們對系統資源使用有一個宏觀的瞭解。
命令的輸出分別表示1分鐘、5分鐘、15分鐘的平均負載狀況。經過這三個數據,能夠了解服務器負載是在趨於緊張仍是趨於緩解。若是1分鐘平均負載很高,而15分鐘平均負載很低,說明服務器正在命令高負載狀況,須要進一步排查CPU資源都消耗在了哪裏。反之,若是15分鐘平均負載很高,1分鐘平均負載較低,則有多是CPU資源緊張時刻已通過去。
上面例子中的輸出,能夠看見最近1分鐘的平均負載很是高,且遠高於最近15分鐘負載,所以咱們須要繼續排查當前系統中有什麼進程消耗了大量的資源。能夠經過下文將會介紹的vmstat、mpstat等命令進一步排查。
dmesg丨tail
$ dmesg | tail [1880957.563150] perl invoked oom-killer: gfp_mask=0x280da, order=0, oom_score_adj=0 [...] [1880957.563400] Out of memory: Kill process 18694 (perl) score 246 or sacrifice child [1880957.563408] Killed process 18694 (perl) total-vm:1972392kB, anon-rss:1953348kB, file-rss:0kB [2320864.954447] TCP: Possible SYN flooding on port 7001. Dropping request. Check SNMP counters.
該命令會輸出系統日誌的最後10行。示例中的輸出,能夠看見一次內核的oom kill和一次TCP丟包。這些日誌能夠幫助排查性能問題。千萬不要忘了這一步。
vmstat 1
$ vmstat 1 procs ---------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 34 0 0 200889792 73708 591828 0 0 0 5 6 10 96 1 3 0 0 32 0 0 200889920 73708 591860 0 0 0 592 13284 4282 98 1 1 0 0 32 0 0 200890112 73708 591860 0 0 0 0 9501 2154 99 1 0 0 0 32 0 0 200889568 73712 591856 0 0 0 48 11900 2459 99 0 0 0 0 32 0 0 200890208 73712 591860 0 0 0 0 15898 4840 98 1 1 0 0 ^C
vmstat(8) 命令,每行會輸出一些系統核心指標,這些指標可讓咱們更詳細的瞭解系統狀態。後面跟的參數1,表示每秒輸出一次統計信息,表頭提示了每一列的含義,這幾介紹一些和性能調優相關的列:
r:等待在CPU資源的進程數。這個數據比平均負載更加可以體現CPU負載狀況,數據中不包含等待IO的進程。若是這個數值大於機器CPU核數,那麼機器的CPU資源已經飽和。
free:系統可用內存數(以千字節爲單位),若是剩餘內存不足,也會致使系統性能問題。下文介紹到的free命令,能夠更詳細的瞭解系統內存的使用狀況。
si,so:交換區寫入和讀取的數量。若是這個數據不爲0,說明系統已經在使用交換區(swap),機器物理內存已經不足。
us, sy, id, wa, st:這些都表明了CPU時間的消耗,它們分別表示用戶時間(user)、系統(內核)時間(sys)、空閒時間(idle)、IO等待時間(wait)和被偷走的時間(stolen,通常被其餘虛擬機消耗)。
上述這些CPU時間,可讓咱們很快了解CPU是否出於繁忙狀態。通常狀況下,若是用戶時間和系統時間相加很是大,CPU出於忙於執行指令。若是IO等待時間很長,那麼系統的瓶頸可能在磁盤IO。
示例命令的輸出能夠看見,大量CPU時間消耗在用戶態,也就是用戶應用程序消耗了CPU時間。這不必定是性能問題,須要結合r隊列,一塊兒分析。
mpstat-P ALL 1
$ mpstat -P ALL 1 Linux 3.13.0-49-generic (titanclusters-xxxxx) 07/14/2015 _x86_64_ (32 CPU) 07:38:49 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 07:38:50 PM all 98.47 0.00 0.75 0.00 0.00 0.00 0.00 0.00 0.00 0.78 07:38:50 PM 0 96.04 0.00 2.97 0.00 0.00 0.00 0.00 0.00 0.00 0.99 07:38:50 PM 1 97.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 2.00 07:38:50 PM 2 98.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 07:38:50 PM 3 96.97 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 3.03 [...]
該命令能夠顯示每一個CPU的佔用狀況,若是有一個CPU佔用率特別高,那麼有多是一個單線程應用程序引發的。
pidstat 1
$ pidstat 1 Linux 3.13.0-49-generic (titanclusters-xxxxx) 07/14/2015 _x86_64_ (32 CPU) 07:41:02 PM UID PID %usr %system %guest %CPU CPU Command 07:41:03 PM 0 9 0.00 0.94 0.00 0.94 1 rcuos/0 07:41:03 PM 0 4214 5.66 5.66 0.00 11.32 15 mesos-slave 07:41:03 PM 0 4354 0.94 0.94 0.00 1.89 8 java 07:41:03 PM 0 6521 1596.23 1.89 0.00 1598.11 27 java 07:41:03 PM 0 6564 1571.70 7.55 0.00 1579.25 28 java 07:41:03 PM 60004 60154 0.94 4.72 0.00 5.66 9 pidstat 07:41:03 PM UID PID %usr %system %guest %CPU CPU Command 07:41:04 PM 0 4214 6.00 2.00 0.00 8.00 15 mesos-slave 07:41:04 PM 0 6521 1590.00 1.00 0.00 1591.00 27 java07:41:04 PM 0 6564 1573.00 10.00 0.00 1583.00 28 java 07: