linux實時監控命令

時間 2019-12-01

標籤 linux 實時監控命令欄目 Linux 简体版

原文原文鏈接

一、查看磁盤IO iostat -x 1 10 查看設備使用率（%util）、響應時間（await） ios

avg-cpu: %user   %nice %system %iowait %steal   %idle
           27.13    0.00   21.90    3.71    0.00   47.26

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await svctm %util
sdd               0.00     0.00   18.00 117.00 1524.00 12667.50   210.24     0.36    2.65   2.09 28.20
sdj               0.00     0.00   15.00 209.00   536.00 14855.00   137.42     0.74    3.38   1.70 38.00 nginx

rrqm/s：每秒這個設備相關的讀取請求有多少被Merge了（當系統調用須要讀取數據的時候，VFS將請求發到各個FS，若是FS發現不一樣的讀取請求讀取的是相同Block的數據，FS會將這個請求合併Merge）；

wrqm/s：每秒這個設備相關的寫入請求有多少被Merge了。

rsec/s：每秒讀取的扇區數；

wsec/：每秒寫入的扇區數。

rKB/s：The number of read requests that were issued to the device per second；

wKB/s：The number of write requests that were issued to the device per second；

avgrq-sz 平均請求扇區的大小 avgqu-sz 是平均請求隊列的長度。毫無疑問，隊列長度越短越好。

await：每個IO請求的處理的平均時間（單位是微秒毫秒）。這裏能夠理解爲IO的響應時間，通常地系統IO響應時間應該低於5ms，若是大於10ms就比較大了。這個時間包括了隊列時間和服務時間，也就是說，通常狀況下，await大於svctm，它們的差值越小，則說明隊列時間越短，反之差值越大，隊列時間越長，說明系統出了問題。

svctm 表示平均每次設備I/O操做的服務時間（以毫秒爲單位）。若是svctm的值與await很接近，表示幾乎沒有I/O等待，磁盤性能很好，若是await的值遠高於svctm的值，則表示I/O隊列等待太長，系統上運行的應用程序將變慢。

%util：在統計時間內全部處理IO時間，除以總共統計時間。例如，若是統計間隔1秒，該設備有0.8秒在處理IO，而0.2秒閒置，那麼該設備的%util = 0.8/1 = 80%，因此該參數暗示了設備的繁忙程度。通常地，若是該參數是100%表示設備已經接近滿負荷運行了（固然若是是多磁盤，即便%util是100%，由於磁盤的併發能力，因此磁盤使用未必就到了瓶頸）。

二、查看內存CPU，使用狀況vmstat 2 10 web

r 表示運行隊列(就是說多少個進程真的分配到CPU)，我測試的服務器目前CPU比較空閒，沒什麼程序在跑，當這個值超過了CPU數目，就會出現CPU瓶頸了。這個也和top的負載有關係，通常負載超過了3就比較高，超過了5就高，超過了10就不正常了，服務器的狀態很危險。top的負載相似每秒的運行隊列。若是運行隊列過大，表示你的CPU很繁忙，通常會形成CPU使用率很高。 apache

b 表示阻塞的進程,這個很少說，進程阻塞，你們懂的。緩存

swpd 虛擬內存已使用的大小，若是大於0，表示你的機器物理內存不足了，若是不是程序內存泄露的緣由，那麼你該升級內存了或者把耗內存的任務遷移到其餘機器。 bash

free 空閒的物理內存的大小，個人機器內存總共8G，剩餘3415M。服務器

buff Linux/Unix系統是用來存儲，目錄裏面有什麼內容，權限等的緩存，我本機大概佔用300多M 網絡

cache cache直接用來記憶咱們打開的文件,給文件作緩衝，我本機大概佔用300多M(這裏是Linux/Unix的聰明之處，把空閒的物理內存的一部分拿來作文件和目錄的緩存，是爲了提升程序執行的性能，當程序使用內存時，buffer/cached會很快地被使用。) 併發

si 每秒從磁盤讀入虛擬內存的大小，若是這個值大於0，表示物理內存不夠用或者內存泄露了，要查找耗內存進程解決掉。個人機器內存充裕，一切正常。函數

so 每秒虛擬內存寫入磁盤的大小，若是這個值大於0，同上。

bi 塊設備每秒接收的塊數量，這裏的塊設備是指系統上全部的磁盤和其餘塊設備，默認塊大小是1024byte，我本機上沒什麼IO操做，因此一直是0，可是我曾在處理拷貝大量數據(2-3T)的機器上看過能夠達到140000/s，磁盤寫入速度差很少140M每秒

bo 塊設備每秒發送的塊數量，例如咱們讀取文件，bo就要大於0。bi和bo通常都要接近0，否則就是IO過於頻繁，須要調整。

in 每秒CPU的中斷次數，包括時間中斷

cs 每秒上下文切換次數，例如咱們調用系統函數，就要進行上下文切換，線程的切換，也要進程上下文切換，這個值要越小越好，太大了，要考慮調低線程或者進程的數目,例如在apache和nginx這種web服務器中，咱們通常作性能測試時會進行幾千併發甚至幾萬併發的測試，選擇web服務器的進程能夠由進程或者線程的峯值一直下調，壓測，直到cs到一個比較小的值，這個進程和線程數就是比較合適的值了。系統調用也是，每次調用系統函數，咱們的代碼就會進入內核空間，致使上下文切換，這個是很耗資源，也要儘可能避免頻繁調用系統函數。上下文切換次數過多表示你的CPU大部分浪費在上下文切換，致使CPU幹正經事的時間少了，CPU沒有充分利用，是不可取的。

us 用戶CPU時間，我曾經在一個作加密解密很頻繁的服務器上，能夠看到us接近100,r運行隊列達到80(機器在作壓力測試，性能表現不佳)。

sy 系統CPU時間，若是過高，表示系統調用時間長，例如是IO操做頻繁。

id 空閒 CPU時間，通常來講，id + us + sy = 100,通常我認爲id是空閒CPU使用率，us是用戶CPU使用率，sy是系統CPU使用率。

wt 等待IO CPU時間。

三、網絡狀況ifstat / iftop / dstat

四、安裝

#yum install dstat

使用yum，如何安裝iostat
sysstat 使用yum安裝
#yum install sysstat

sysstat的安裝包是：sysstat-5.0.5-1.i386.rpm，裝完了sysstat-5.0.5-1.i386.rpm
後就會有iostat、mpstat、sar、sa的功能，sysstat-5.0.5-1.i386.rpm

啓動sysstat
/etc/init.d/sysstat start

設置sysstat自啓動
#checkfig sysstat on

五、統計平均值

取樣CPU、網絡IO dstat| awk -F "[ |]+" 'BEGIN{max=0;count=0;curr=100}{if(match($0, "total")<=1 && match($0, "idl")<=1){gsub("M","");count++;sysc+=$1+$2;max=(($1+$2) >max ?($1+$2):max);if($10<1000)recv+=$10;if($11<1000)send+=$11;};if(count%curr==0){{print "sysc=",sysc/curr,"Max=",max,"recv=",recv/curr,"send=",send/curr};sysc=0;max=0;recv=0;send=0 }}'

取樣磁盤IO iostat -dx 3 50|awk 'BEGIN{max=0;count=0}{if($1=="sdb"){count++;await+=$10;util+=$12;max=($10 >max ?$10:max)} } {print $0}END {print "await=",await/count,"utilavg=",util/(count-1),"Max=",max}'

awk時間使用樣例vmstat | awk '{if(match($0, "proc")==1)print substr($0, 1,1),strftime("%m-%d %H:%M:%S")}'

取樣cpu,網絡腳本

#!/bin/bash
dstat| awk -F "[ |]+" 'BEGIN{max=0;count=0;curr=300}{ \
if(match($0, "total")<=1 && match($0, "idl")<=1){gsub("M","");count++;sysc+=$1+$2;max=(($1+$2) >max ?($1+$2):max);if($10<1000)recv+=$10;if($11<1000)send+=$11;};if(count%curr==0){ \
{now=strftime("%y-%m-%d %T",systime());}{print now,"sysc=",sysc/curr,"Max=",max,"recv=",recv/curr,"send=",send/curr >> "/usr/local/nds/log/dstat2015.log";fflush(stdout)};sysc=0;max=0;recv=0;send=0 }}'

六、查看進程內存

ps -e -o 'pid,comm,args,pcpu,rsz,vsz,stime,user,uid' |grep ceph 其中rsz是是實際內存