查看 linux 系統負載

時間 2019-12-07

標籤查看 linux 系統負載欄目 Linux 简体版

原文原文鏈接

第一行：
10:01:23 — 當前系統時間
126 days, 14:29 — 系統已經運行了126天14小時29分鐘（在這期間沒有重啓過）
2 users — 當前有2個用戶登陸系統
load average: 1.15, 1.42, 1.44 — load average後面的三個數分別是1分鐘、5分鐘、15分鐘的負載狀況。 java

load average數據是每隔5秒鐘檢查一次活躍的進程數，而後按特定算法計算出的數值。若是這個數除以邏輯CPU的數量，結果高於5的時候就代表系統在超負荷運轉了。 linux

第二行：
Tasks — 任務（進程），系統如今共有183個進程，其中處於運行中的有1個，182個在休眠（sleep），stoped狀態的有0個，zombie狀態（殭屍）的有0個。 web

第三行：cpu狀態
6.7% us — 用戶空間佔用CPU的百分比。
0.4% sy — 內核空間佔用CPU的百分比。
0.0% ni — 改變過優先級的進程佔用CPU的百分比
92.9% id — 空閒CPU百分比
0.0% wa — IO等待佔用CPU的百分比
0.0% hi — 硬中斷（Hardware IRQ）佔用CPU的百分比
0.0% si — 軟中斷（Software Interrupts）佔用CPU的百分比算法

在這裏CPU的使用比率和windows概念不一樣，若是你不理解用戶空間和內核空間，須要充充電了。 windows

第四行：內存狀態
8306544k total — 物理內存總量（8GB）
7775876k used — 使用中的內存總量（7.7GB）
530668k free — 空閒內存總量（530M）
79236k buffers — 緩存的內存量（79M）緩存

第五行：swap交換分區
2031608k total — 交換區總量（2GB）
2556k used — 使用的交換區總量（2.5M）
2029052k free — 空閒交換區總量（2GB）
4231276k cached — 緩衝的交換區總量（4GB）服務器

這裏要說明的是不能用windows的內存概念理解這些數據，若是按windows的方式此臺服務器「危矣」：8G的內存總量只剩下530M的可用內存。Linux的內存管理有其特殊性，複雜點須要一本書來講明，這裏只是簡單說點和咱們傳統概念（windows）的不一樣。網絡

第四行中使用中的內存總量（used）指的是如今系統內核控制的內存數，空閒內存總量（free）是內核還未歸入其管控範圍的數量。歸入內核管理的內存不見得都在使用中，還包括過去使用過的如今能夠被重複利用的內存，內核並不把這些可被從新使用的內存交還到free中去，所以在linux上free內存會愈來愈少，但不用爲此擔憂。 tcp

若是出於習慣去計算可用內存數，這裏有個近似的計算公式：第四行的free + 第四行的buffers + 第五行的cached，按這個公式此臺服務器的可用內存：530668+79236+4231276 = 4.7GB。 spa

對於內存監控，在top裏咱們要時刻監控第五行swap交換分區的used，若是這個數值在不斷的變化，說明內核在不斷進行內存和swap的數據交換，這是真正的內存不夠用了。

第七行如下：各進程（任務）的狀態監控
PID — 進程id
USER — 進程全部者
PR — 進程優先級
NI — nice值。負值表示高優先級，正值表示低優先級
VIRT — 進程使用的虛擬內存總量，單位kb。VIRT=SWAP+RES
RES — 進程使用的、未被換出的物理內存大小，單位kb。RES=CODE+DATA
SHR — 共享內存大小，單位kb
S — 進程狀態。D=不可中斷的睡眠狀態 R=運行 S=睡眠 T=跟蹤/中止 Z=殭屍進程
%CPU — 上次更新到如今的CPU時間佔用百分比
%MEM — 進程使用的物理內存百分比
TIME+ — 進程使用的CPU時間總計，單位1/100秒
COMMAND — 進程名稱（命令名/命令行）

多U多核CPU監控
在top基本視圖中，按鍵盤數字「1」，可監控每一個邏輯CPU的情況：

觀察上圖，服務器有16個邏輯CPU，其實是4個物理CPU。

程字段排序
默認進入top時，各進程是按照CPU的佔用量來排序的，在【top視圖 01】中進程ID爲14210的java進程排在第一（cpu佔用100%），進程ID爲14183的java進程排在第二（cpu佔用12%）。可經過鍵盤指令來改變排序字段，好比想監控哪一個進程佔用MEM最多，我通常的使用方法以下：

1. 敲擊鍵盤「b」（打開/關閉加亮效果），top的視圖變化以下：

top視圖 03

咱們發現進程id爲10704的「top」進程被加亮了，top進程就是視圖第二行顯示的惟一的運行態（runing）的那個進程，能夠經過敲擊「y」鍵關閉或打開運行態進程的加亮效果。

2. 敲擊鍵盤「x」（打開/關閉排序列的加亮效果），top的視圖變化以下：

top視圖 04

能夠看到，top默認的排序列是「%CPU」。

3. 經過」shift + >」或」shift + <」能夠向右或左改變排序列，下圖是按一次」shift + >」的效果圖：

top視圖 05

視圖如今已經按照%MEM來排序了。

改變進程顯示字段

1. 敲擊「f」鍵，top進入另外一個視圖，在這裏能夠編排基本視圖中的顯示字段：

top視圖 06

這裏列出了全部可在top基本視圖中顯示的進程字段，有」*」而且標註爲大寫字母的字段是可顯示的，沒有」*」而且是小寫字母的字段是不顯示的。若是要在基本視圖中顯示「CODE」和「DATA」兩個字段，能夠經過敲擊「r」和「s」鍵：

top視圖 07

2. 「回車」返回基本視圖，能夠看到多了「CODE」和「DATA」兩個字段：

top視圖 08

top命令的補充
top命令是Linux上進行系統監控的首選命令，但有時候卻達不到咱們的要求，好比當前這臺服務器，top監控有很大的侷限性。這臺服務器運行着websphere集羣，有兩個節點服務，就是【top視圖 01】中的老大、老二兩個java進程，top命令的監控最小單位是進程，因此看不到我關心的java線程數和客戶鏈接數，而這兩個指標是java的 web服務很是重要的指標，一般我用ps和netstate兩個命令來補充top的不足。

監控java線程數：
ps -eLf | grep java | wc -l

監控網絡客戶鏈接數：
netstat -n | grep tcp | grep 偵聽端口 | wc -l

上面兩個命令，可改動grep的參數，來達到更細緻的監控要求。
在Linux系統「一切都是文件」的思想貫徹指導下，全部進程的運行狀態均可以用文件來獲取。系統根目錄/proc中，每個數字子目錄的名字都是運行中的進程的PID，進入任一個進程目錄，可經過其中文件或目錄來觀察進程的各項運行指標，例如task目錄就是用來描述進程中線程的，所以也能夠經過下面的方法獲取某進程中運行中的線程數量（PID指的是進程ID）：

ls /proc/PID/task | wc -l

在linux中還有一個命令pmap，來輸出進程內存的情況，能夠用來分析線程堆棧：

pmap PID