linux實時監控命令

一、查看磁盤IO iostat -x 1 10  查看設備使用率(%util)、響應時間(await) ios

 avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           27.13    0.00   21.90    3.71    0.00   47.26

 Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
 sdd               0.00     0.00   18.00  117.00  1524.00 12667.50   210.24     0.36    2.65   2.09  28.20
 sdj               0.00     0.00   15.00  209.00   536.00 14855.00   137.42     0.74    3.38   1.70  38.00 nginx

  • rrqm/s:每秒這個設備相關的讀取請求有多少被Merge了(當系統調用須要讀取數據的時候,VFS將請求發到各個FS,若是FS發現不一樣的讀取請求讀取的是相同Block的數據,FS會將這個請求合併Merge);
  • wrqm/s:每秒這個設備相關的寫入請求有多少被Merge了。
  • rsec/s:每秒讀取的扇區數;
  • wsec/:每秒寫入的扇區數。
  • rKB/s:The number of read requests that were issued to the device per second;
  • wKB/s:The number of write requests that were issued to the device per second;
  • avgrq-sz 平均請求扇區的大小 avgqu-sz 是平均請求隊列的長度。毫無疑問,隊列長度越短越好。
  • await: 每個IO請求的處理的平均時間(單位是微秒毫秒)。這裏能夠理解爲IO的響應時間,通常地系統IO響應時間應該低於5ms,若是大於10ms就比較大了。 這個時間包括了隊列時間和服務時間,也就是說,通常狀況下,await大於svctm,它們的差值越小,則說明隊列時間越短,反之差值越大,隊列時間越長,說明系統出了問題。 
  • svctm 表示平均每次設備I/O操做的服務時間(以毫秒爲單位)。若是svctm的值與await很接近,表示幾乎沒有I/O等待,磁盤性能很好,若是await的值遠高於svctm的值,則表示I/O隊列等待太長,系統上運行的應用程序將變慢。
  • %util: 在統計時間內全部處理IO時間,除以總共統計時間。例如,若是統計間隔1秒,該設備有0.8秒在處理IO,而0.2秒閒置,那麼該設備的%util = 0.8/1 = 80%,因此該參數暗示了設備的繁忙程度 。通常地,若是該參數是100%表示設備已經接近滿負荷運行了(固然若是是多磁盤,即便%util是100%,由於磁盤的併發能力,因此磁盤使用未必就到了瓶頸)。

二、查看內存CPU,使用狀況vmstat 2 10 web

r 表示運行隊列(就是說多少個進程真的分配到CPU),我測試的服務器目前CPU比較空閒,沒什麼程序在跑,當這個值超過了CPU數目,就會出現CPU瓶頸 了。這個也和top的負載有關係,通常負載超過了3就比較高,超過了5就高,超過了10就不正常了,服務器的狀態很危險。top的負載相似每秒的運行隊 列。若是運行隊列過大,表示你的CPU很繁忙,通常會形成CPU使用率很高。 apache

b 表示阻塞的進程,這個很少說,進程阻塞,你們懂的。 緩存

swpd 虛擬內存已使用的大小,若是大於0,表示你的機器物理內存不足了,若是不是程序內存泄露的緣由,那麼你該升級內存了或者把耗內存的任務遷移到其餘機器。 bash

free   空閒的物理內存的大小,個人機器內存總共8G,剩餘3415M。 服務器

buff   Linux/Unix系統是用來存儲,目錄裏面有什麼內容,權限等的緩存,我本機大概佔用300多M 網絡

cache cache直接用來記憶咱們打開的文件,給文件作緩衝,我本機大概佔用300多M(這裏是Linux/Unix的聰明之處,把空閒的物理內存的一部分拿來作文件和目錄的緩存,是爲了提升 程序執行的性能,當程序使用內存時,buffer/cached會很快地被使用。) 併發

si  每秒從磁盤讀入虛擬內存的大小,若是這個值大於0,表示物理內存不夠用或者內存泄露了,要查找耗內存進程解決掉。個人機器內存充裕,一切正常。 函數

so  每秒虛擬內存寫入磁盤的大小,若是這個值大於0,同上。

bi  塊設備每秒接收的塊數量,這裏的塊設備是指系統上全部的磁盤和其餘塊設備,默認塊大小是1024byte,我本機上沒什麼IO操做,因此一直是0,可是我曾在處理拷貝大量數據(2-3T)的機器上看過能夠達到140000/s,磁盤寫入速度差很少140M每秒

bo 塊設備每秒發送的塊數量,例如咱們讀取文件,bo就要大於0。bi和bo通常都要接近0,否則就是IO過於頻繁,須要調整。

in 每秒CPU的中斷次數,包括時間中斷

cs 每秒上下文切換次數,例如咱們調用系統函數,就要進行上下文切換,線程的切換,也要進程上下文切換,這個值要越小越好,太大了,要考慮調低線程或者進程的 數目,例如在apache和nginx這種web服務器中,咱們通常作性能測試時會進行幾千併發甚至幾萬併發的測試,選擇web服務器的進程能夠由進程或 者線程的峯值一直下調,壓測,直到cs到一個比較小的值,這個進程和線程數就是比較合適的值了。系統調用也是,每次調用系統函數,咱們的代碼就會進入內核 空間,致使上下文切換,這個是很耗資源,也要儘可能避免頻繁調用系統函數。上下文切換次數過多表示你的CPU大部分浪費在上下文切換,致使CPU幹正經事的 時間少了,CPU沒有充分利用,是不可取的。

us 用戶CPU時間,我曾經在一個作加密解密很頻繁的服務器上,能夠看到us接近100,r運行隊列達到80(機器在作壓力測試,性能表現不佳)。

sy 系統CPU時間,若是過高,表示系統調用時間長,例如是IO操做頻繁。

id  空閒 CPU時間,通常來講,id + us + sy = 100,通常我認爲id是空閒CPU使用率,us是用戶CPU使用率,sy是系統CPU使用率。

wt 等待IO CPU時間。

三、網絡狀況ifstat / iftop / dstat


四、安裝

#yum install dstat

使用yum,如何安裝iostat
sysstat 使用yum安裝
#yum install sysstat

sysstat的安裝包是:sysstat-5.0.5-1.i386.rpm,裝完了sysstat-5.0.5-1.i386.rpm
後 就會有iostat、mpstat、sar、sa的功能,sysstat-5.0.5-1.i386.rpm

啓動sysstat
/etc/init.d/sysstat start

設置sysstat自啓動
#checkfig sysstat on

五、統計平均值

取樣CPU、網絡IO dstat| awk -F "[ |]+" 'BEGIN{max=0;count=0;curr=100}{if(match($0, "total")<=1 && match($0, "idl")<=1){gsub("M","");count++;sysc+=$1+$2;max=(($1+$2) >max ?($1+$2):max);if($10<1000)recv+=$10;if($11<1000)send+=$11;};if(count%curr==0){{print "sysc=",sysc/curr,"Max=",max,"recv=",recv/curr,"send=",send/curr};sysc=0;max=0;recv=0;send=0 }}'

取樣磁盤IO iostat -dx 3 50|awk 'BEGIN{max=0;count=0}{if($1=="sdb"){count++;await+=$10;util+=$12;max=($10 >max ?$10:max)} } {print $0}END {print "await=",await/count,"utilavg=",util/(count-1),"Max=",max}'

awk時間使用樣例vmstat | awk '{if(match($0, "proc")==1)print substr($0, 1,1),strftime("%m-%d %H:%M:%S")}'

取樣cpu,網絡腳本

#!/bin/bash
dstat| awk -F "[ |]+" 'BEGIN{max=0;count=0;curr=300}{ \
if(match($0, "total")<=1 && match($0, "idl")<=1){gsub("M","");count++;sysc+=$1+$2;max=(($1+$2) >max ?($1+$2):max);if($10<1000)recv+=$10;if($11<1000)send+=$11;};if(count%curr==0){ \
{now=strftime("%y-%m-%d %T",systime());}{print now,"sysc=",sysc/curr,"Max=",max,"recv=",recv/curr,"send=",send/curr >> "/usr/local/nds/log/dstat2015.log";fflush(stdout)};sysc=0;max=0;recv=0;send=0 }}'

六、查看進程內存

ps -e -o 'pid,comm,args,pcpu,rsz,vsz,stime,user,uid' |grep ceph 其中rsz是是實際內存

相關文章
相關標籤/搜索