性能測試中服務器關鍵性能指標淺析

在對互聯網服務進行服務端性能測試時,主要關注兩方面的性能指標:html

  • 業務指標:如吞吐量(QPS、TPS)、響應時間(RT)、併發數、業務成功率等
  • 資源指標:如CPU、內存、Disk I/O、Network I/O等資源的消耗狀況
    本文主要介紹一些普遍適用的、基本的資源指標以及這些指標在Linux服務器的獲取方式。

一. CPU

關於CPU資源,有三個重要概念是咱們須要關注的:使用率、運行隊列和上下文切換,這裏藉助一張描述進程狀態的圖來進行簡要說明:python


 
Process state -via wikipedia
  • Running:正在運行的進程
  • Waiting:已準備就緒,等待運行的進程
  • Blocked:由於等待某些事件完成而阻塞的進程,一般是在等待I/O,如Disk I/O,Network I/O等。

這裏的Running和Waiting共同構成Linux進程狀態中的可運行狀態(task_running),而Blocked狀態能夠對應Linux進程狀態中的不可中斷睡眠狀態(task_uninterruptible)linux

在Linux可使用vmstat來獲取這些數據:ios

[hbase@ecs-097 ~]$ vmstat 1
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 6  0      0 4591436 176804 1185380    0    0     0     0 7915 10357 83  5 12  0  0

  

CPU使用率(CPU Utilization Percentages):有進程處於Running狀態的時間/總時間。在vmstat主要經過ussysid三列數據來體現:ruby

  • us:用戶佔用CPU的百分比
  • sy:系統(內核和中斷)佔用CPU的百分比
  • id:CPU空閒的百分比

性能測試指標中,CPU使用率一般用us + sy來計算,其可接受上限一般在70%~80%另外須要注意的是,在測試過程當中,若是sy的值長期大於25%,應該關注in(系統中斷)和cs(上下文切換)的數值,並根據被測應用的實現邏輯來分析是否合理。服務器

運行隊列進程數(Processes on run queue):Running狀態 + Waiting狀態的進程數,展現了正在運行和等待CPU資源的任務數,能夠看做CPU的工做清單,是判斷CPU資源是否成爲瓶頸的重要依據。vmstat經過r的值來體現:網絡

  • r: 可運行進程數,包括正在運行(Running)和已就緒等待運行(Waiting)的。

若是r的值等於系統CPU總核數,則說明CPU已經滿負荷。在負載測試中,其可接受上限一般不超過CPU核數的2倍。併發

上下文切換(Context Switches):簡單來講,context指CPU寄存器和程序計數器在某時間點的內容,(進程)上下文切換即kernel掛起一個進程並將該進程此時的狀態存儲到內存,而後從內存中恢復下一個要執行的進程原來的狀態到寄存器,從其上次暫停的執行代碼開始繼續執行至頻繁的上下文切換將致使sy值增加。vmstat經過cs的值來體現:工具

  • cs:每秒上下文切換次數。

另外還有一個指標用來做爲系統在一段時間內的負載狀況的參考:
平均負載Load Average:在UNIX系統中,Load是對系統工做量的度量。Load取值有兩種狀況,多數UNIX系統取運行隊列的值(vmstat輸出的r),而Linux系統取運行隊列的值 + 處於task_uninterruptible狀態的進程數(vmstat輸出的b)**,因此會出現CPU使用率不高但Load值很高的狀況。Load Average就是在一段時間內的平均負載,系統工具top、uptime等提供1分鐘、5分鐘和15分鐘的平均負載值。性能

[hbase@ecs-097 ~]$ top
top - 19:23:28 up 18:05,  3 users,  load average: 0.80, 0.60, 0.53

  

上面示例中的0.80便是1分鐘內的Load average,以此類推。
當咱們須要瞭解當前系統負載狀況時,能夠先查看Load average的值,若是系統持續處於高負載(如15分鐘平均負載大於CPU總核數的兩倍),則查看vmstat的r值和b值來確認是CPU負荷重仍是等待I/O的進程太多。

二. Memory

Memory資源也有三方面須要關注:可用內存,swap佔用,頁面交換(Paging),仍然藉助一張圖來講明:


 
Virtual Memory

這裏講到的內存,包括物理內存和虛擬內存,如上圖所示,物理內存和硬盤上的一塊空間(SWAP)組合起來做爲虛擬內存(Virtual Memory)爲進程的運行提供一個連續的內存空間,這樣的好處是進程可用的內存變大了,但須要注意的是,SWAP的讀寫速度遠低於物理內存,而且物理內存和swap之間的數據交換會增長系統負擔。虛擬內存被分紅頁(x86系統默認頁大小爲4k),內核讀寫虛擬內存以頁爲單位,當物理內存空間不足時,內存調度會將物理內存上不常使用的內存頁數據存儲到磁盤的SWAP空間,物理內存與swap空間之間的數據交換過程稱爲頁面交換(Paging)。

可用內存(free memory):內存佔用的直觀數據,vmstat輸出free的值,可用內存太小將影響整個系統的運行效率,對於穩定運行的系統,free可接受的範圍一般應該大於物理內存的20%即內存佔用應該小於物理內存的80%。在壓力測試時,系統內存資源的狀況應該用可用內存結合頁面交換狀況來判斷,若是能夠內存不多,但頁面交換也不多,此時能夠認爲內存資源還對系統性能構成嚴重影響。

頁面交換(Paging):頁面交換包括從SWAP交換到內存和從內存交換到SWAP,若是系統出現頻繁的頁面交換,須要引發注意。能夠從vmstat的si和so獲取:

  • si:每秒從SWAP讀取到內存的數據大小
  • so:每秒從內存寫入到SWAP的數據大小

SWAP空間佔用:能夠從vmstat的swpd來獲取當前SWAP空間的使用狀況,應該和頁面交換結合來分析,好比當swpd不爲0,但si,so持續保持爲0時,內存資源並無成爲系統的瓶頸。

三. Disk

磁盤一般是系統中最慢的一環,一是其自身速度慢,即便是SSD,其讀寫速度與內存都還存在數量級的差距,二是其離CPU最遠。另外須要說明的是磁盤IO分爲隨機IO順序IO兩種類型,在性能測試中應該先了解被測系統是偏向哪一種類型。

  • 隨機IO:隨機讀寫數據,讀寫請求多,每次讀寫的數據量較小,其IO速度更依賴於磁盤每秒能IO次數(IOPS)。
  • 順序IO:順序請求大量數據,讀寫請求個數相對較少,每次讀寫的數據量較大,順序IO更重視每次IO的數據吞吐量。

對於磁盤,首要關注使用率,IOPS和數據吞吐量,在Linux服務區,可使用iostat來獲取這些數據。

[hbase@ecs-097 ~]$ iostat -dxk 1 Linux 2.6.32-504.3.3.el6.x86_64 (ecs-097) 08/01/2016 _x86_64_ (4 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.52 0.00 0.13 0.06 0.00 99.28 Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util xvda 0.10 6.63 0.40 2.57 6.22 36.80 29.00 0.04 14.63 1.19 0.35 

(設備)使用率:統計過程當中處理I/O請求的時間與統計時間的百分比,即iostat輸出中的%util,若是該值大於60%,極可能下降系統的性能表現。

IOPS:每秒處理讀/寫請求的數量,即iostat輸出中的r/s和w/s,我的PC的機械硬盤IOPS通常在100左右,而各類公有云/私有云的普通服務器,也只在百這個數量級。預先獲取到所用服務區的IOPS能力,而後在性能測試中監控試試的IOPS數據,來衡量當前的磁盤是否能知足系統的IO需求。

數據吞吐量:每秒讀/寫的數據大小,即iostat輸出中的rkB/s和wkB/s,一般磁盤的數據吞吐量與IO類型有直接關係,順序IO的吞吐能力明顯優與隨機讀寫,能夠預先測得磁盤在隨機IO和順序IO下的吞吐量,以便於測試時監控到的數據進行比較衡量。

四. Network

網絡自己是系統中一個很是複雜的部分,但常規的服務端性能測試一般放在一個局域網進行,由於咱們首先關注被測系統自身的性能表現,而且須要保證能在較少的成本下發起足夠大的壓力。所以對於多數系統的性能測試,咱們主要關注網絡吞吐量便可,對於穩定運行的系統,須要爲被測場景外的業務流出足夠的帶寬;在壓力測試過程當中,須要注意瓶頸可能來自於帶寬。
在Linuxf服務器,可使用iptraf來查看本機網絡吞吐量,如:

[root@ecs-097 ~]# iptraf -d eth0 x Total rates: 67.8 kbits/sec Broadcast packets: 0 x x 54.2 packets/sec Broadcast bytes: 0 x x x x Incoming rates: 19.2 kbits/sec x x 25.4 packets/sec x x IP checksum errors: 0 x x Outgoing rates: 48.7 kbits/sec x x 28.8 packets/sec 

五. 總結

性能測試中,數據收集很重要,可是更重要的是快速抓住關鍵數據,讀懂數據的含義。
本文主要介紹服務端性能測試中,對於CPU、內存等各類系統資源,一般首要關注的數據,以及這些數據在Linux服務器上的獲取方式。
在實際測試中,一般會持續收集這些數據,如使用nmon,JMeter的PerfMon插件,以及zabbix等專門的系統監控工具,這就不在本文展開了。

References

Load (computing)
Process state
Linux Performance Analysis in 60,000 Milliseconds

相關文章
相關標籤/搜索