系統監控是運維工做中重要的一環,本文以 atop 工具爲例來介紹系統的重要監控項。mysql
atop可使用yum或apt包管理器進行安裝。atop man page 中詳細說明了 atop 中各監控項含義及atop命令用法。linux
如上圖所示, atop 的界面分爲上半部分的系統監控項和下半部分的進程列表。正則表達式
atop 每10s更新一次系統監控項以及在這段時間內狀態發生變化的進程,按下A鍵能夠查看所有進程。sql
第一行PRC顯示整體進程情況:緩存
#proc
爲當前總進程數,
#trun
表示 running 狀態線程數#tslpi
表示 sleeping interruptible 狀態的進線程數#tslpu
表示 sleeping uninterruptible 狀態線程數#zombie
表示殭屍進程數linux 中進程有兩種 sleep 狀態:服務器
一個進程使用fork建立子進程,若是子進程退出,而父進程並無調用wait或waitpid獲取子進程的狀態信息,那麼子進程的進程描述符仍然保存在系統中,這種進程稱之爲殭屍進程。大量殭屍進程可能會佔用進程描述符空間致使沒法建立進程。網絡
孤兒進程是容易與殭屍進程混淆的一類進程,孤兒進程是父進程終止的進程,它們會被 init 進程接管並不會產生危害。運維
在 atop 中每一個 CPU 邏輯核心擁有一個 cpu
行表示自身狀態, 最前面的 CPU 行則展現系統總覽。異步
CPL 行表示 CPU 負載(CPU Load):tcp
系統負載
CPU 負載或稱爲系統負載是一個容易被誤解的監控項,它的定義爲內核運行隊列中 running 或 uninterruptible sleep 狀態的進程的平均數與CPU計算能力的比值。
系統負載 1.0 說明CPU剛好滿載,當系統負載大於1.0時會有進程由於等待CPU而阻塞。在多核系統中,系統負載等於CPU核心數表示剛好滿載,如在上圖所示雙核系統中,load=2說明剛好滿載。
上文已經說明,uninterruptible sleep 進程一般是在等待IO, 當網絡異常或磁盤故障時會致使大量進程處於 uninterruptible sleep 狀態從而致使 Load 急劇上升。
在常見的服務器程序大多數爲IO密集型程序,常見的CPU密集型任務包括:
當咱們發現 CPU 使用率上升時,咱們能夠優先考慮是否在上述CPU密集型任務。
MEM 行描述內存使用狀況:
頁緩存是 Linux 處理文件IO的機制,因爲磁盤的讀寫速度遠遠低於內存和CPU的運行速度,所以內核將文件映射爲頁緩存在內存中,CPU 讀取文件時首先訪問頁緩存,若目標頁未被緩存則會產生一個頁缺失中斷,中斷處理器會從磁盤中讀取文件加載到內存中,必要時會將不經常使用的頁從內存中逐出。
與讀取過程相似,CPU 不會直接寫磁盤而是將更改寫入相應的頁,修改後的頁就會成爲髒頁(dirty page), 髒頁的內容會被異步地寫入磁盤。
在一些文檔中 buff 被籠統地稱爲文件系統緩存,在 man page 中 buff 的定義爲 the amount of memory used for filesystem meta data
即文件系統元數據緩存。
PAG 行表示頁緩存的使用狀況:
scan 和 steal 的解釋比較難理解,附上 man page 中的原文:
This line contains the number of scanned pages ('scan') due to the fact that free memory drops below a particular threshold and the number times that the kernel tries to reclaim pages due to an urgent need ('stall')
SWP 行表示 Swap 分區使用狀態:
當物理內存不足時,內核會將進程內存中不經常使用的頁逐出內存寫入磁盤中的 Swap 分區,當進程須要讀取這些頁時再將它們從磁盤中加載到內存。
DSK 列描述磁盤使用狀況:
網絡層一般包含 transport、network、 eth 和 lo 行, 分別表示傳輸層、網絡層、以太網(數據鏈路層)和本地迴環的監控指標。
進程列表有多個視圖分別展現不一樣方面的數據:
atop 默認展現過去10s內狀態發生變化的進程,按下A鍵能夠查看所有進程。
默認視圖展現經常使用的監控項:
簡單介紹一下進程狀態
按M鍵能夠進入內存視圖查看進程的內存使用狀況:
在 Linux 的內存管理系統中須要讀取磁盤才能解決缺頁中斷稱爲大錯誤(Major Page Fault), 不須要讀取磁盤能夠解決的缺頁中斷被稱爲小錯誤(Minor Page Fault)。
通常狀況下 MINFLT 是由於頻繁分配/回收大內存塊致使的,能夠考慮使用內存池優化程序來減小缺頁錯誤; MAJFLT 是因爲物理內存不足致使。
按S鍵能夠進入調度視圖(Scheduling View)查看進程運行和CPU狀況:
除了查看當前的狀態外,atop 還能夠服務方式運行在後臺監控並記錄系統狀態。
使用 service atop start
或 systemctl start atop
命令啓動atop監控服務。
atop 默認將數據保存在/var/log/atop
目錄下,10 分鐘採集一次,保留最近28天的數據。上述配置能夠在 /etc/atop/atop.daily
文件中進行修改。
使用 atop -r <filename>
命令讀取日誌文件。按t鍵向前翻頁,T鍵向後翻頁,b鍵跳轉到指定時間,時間格式爲hh:mm。