譯自Understanding Linux CPU Load - when should you be worried?緩存
你可能已經很早就熟悉Linux負載均值這個概念了,經過uptime
或者top
命令就能夠獲得三個數字,具體以下所示:安全
load average: 0.09, 0.05, 0.01app
絕大多數人對負載均值只是有個粗淺的認識:即這三個數字分別表明系統最後1分鐘、最後10分鐘以及最後15分鐘的平均負載值,而且這些數字越小越好,若是比較大則表示系統設備有可能負荷超載等問題。性能
可是你有沒有想過,這些數字有沒有邊界?表明「好」或者「壞」的邊界值又是多少?你何時應該關注這些數值?你應該何時去儘快處理使其降下來?ui
在討論這些問題以前,先了解一些負載均值相關的背景知識。咱們用一臺配置了單核處理器的設備,舉個簡單例子解釋說明下。3d
單核CPU就像一條車道的交通狀況。假設你是一座大橋的操做員,有時橋上太忙了,有不少車等着過橋。你想讓人們知道橋上的交通情況。那麼一個合適的度量標準,就是在特定時間有多少輛車在等待。若是沒有車在等,新來的司機知道他們能夠立刻開過去。若是橋上堵車,那麼司機就知道他們會遇到延誤。code
所以,這些數值用於以下用途:cdn
0.00表示橋上一輛車都沒有。也就是說,若是數值介於0.00~1.00之間,則表示沒有堵車,全部的車輛均可以流暢經過。blog
0.50表示橋上的車輛只有一半。能夠看到車輛間距較大,不會擁擠。隊列
1.00表示橋上的車輛達到最大值。一切剛恰好,但若是橋上再來一輛車,那麼就出現堵車的狀況了。
大於1.00表示堵車了。負載數值和堵車嚴重程度有什麼關係呢?舉例說明,2.00表示等待過橋的車輛和橋上滿負載的車輛同樣多,3.00表示等待的車輛是橋上滿負載的車輛的2倍,以此類推。
這基本上就是CPU負載的解釋。「汽車」就是使用CPU時間片(即「過橋」)或排隊使用CPU(等待「過橋」)的進程,Unix將其稱爲運行隊列長度,即當前運行的進程數加上等待(排隊)運行的進程數之和。
就像做爲一個大橋的管理者,你確定不肯意車輛/進程一直處於等待狀態,因此應該讓你的CPU負載低於1.00。若是偶爾超過1.00不用擔憂,但若是一直大於1.00,那麼就須要考慮哪裏出了問題了。
其實並非這樣的。當負載達到1.00時表示已經觸及天花板了,因此通常來講會有一條邊界線,即0.70。
經驗法則之「須要關注」——0.70:若是你的CPU負載均值一直處於>0.70的狀態,那麼在事情變得更糟以前,須要調查一下緣由所在。
經驗法則之「馬上修復」——1.00:若是你的CPU負載均值一直處於>1.00的狀態,那麼趕忙查緣由修復它吧!
經驗法則之「緊急情況」——5.00:若是你的CPU負載均值超過了5.00,你恐怕是遇到大麻煩了!你的系統設備可能卡頓或者特別慢,隨時會出現意外狀況。
是4個處理器的系統嗎?若是是,那就沒事兒。
在多處理器系統上,負載與可用處理器內核的數量有關。「100%利用率」在單核系統上負載爲1.00,在雙核系統上爲2.00,在四核系統上爲4.00等等。
回到剛纔大橋的例子上,1.00表示一條車道上的車輛。在單行道上的大橋上,1.00表示恰好滿載;在兩條車道的大橋上,1.00表示只有50%的負載——即一條車道滿載,而另外一條車道是空的。
一樣地在CPU上:負載爲1.00表示在單核系統上是100%利用率,負載爲2.00表示在雙核系統上是100%利用率。
如今,咱們討論下多核以及多處理器的話題。從性能的角度來看,一臺只有一個雙核處理器的機器基本上等同於一臺只有兩個單核處理器的機器。這裏有許多關於緩存數量、處理器之間的進程切換頻率等的細微之處。儘管有這些細微之處,可是爲了評估CPU負載值,不管這些內核分佈在多少物理處理器上,內核的總數量都很重要。
這就引出了兩條新的經驗法則:
內核總數=最大負載:在一個多核系統裏,負載不該該超過可用的內核數之和。
內核就是內核:內核如何分佈在CPU上並不重要,2個四核== 4個雙核== 8個單核,這些都是8個內核。
輸入uptime
命令,獲得以下的負載均值:
~ $ uptime 23:05 up 14 days, 6:08, 7 users, load averages: 0.65 0.42 0.36
這是一個雙核處理器,因此還有很大的餘量空間,不須要爲它擔憂,除非負載長期處於1.7或更大。
那麼這三個數字怎麼處理呢?0.65是最後1分鐘的平均值,0.42是最後5分鐘的平均值,0.36是最後15分鐘的平均值。這就引出了一個問題:
這三個數值,我應該關注哪一個?1分鐘,5分鐘,仍是15分鐘?
關於這些數值的含義咱們已經討論過(1.00表示須要立刻修復等等),你最應該關注的是5分鐘或15分鐘的平均值。坦率地說,若是你的機器在一分鐘內的平均峯值超過1.0,仍然是能夠正常工做的。當15分鐘的平均值超過1.0時,你須要迅速去調整直至正常範圍內(固然具體數值要看你的系統內核數量)。
內核的數量對於解釋平均負載很是重要,那麼我如何得知系統有多少內核?
經過cat /proc/cpuinfo
命令獲取每一個處理器的詳細信息,grep 'model name' /proc/cpuinfo | wc -l
命令則獲取全部的內核數量。