Linux虛擬內存(swap)調優篇-「swappiness」,「vm.dirty_background_ratio」和「vm.dirty_ratio」html
做者:尹正傑linux
版權聲明:原創做品,謝絕轉載!不然將追究法律責任。api
個人kafka集羣在上線一段時間後,發現內存使用達到峯值時系統開始使用swap。在swap的過程當中系統性能會有所降低,表現爲較大的服務延遲。對這種狀況,能夠經過調節swappiness內核參數下降系統對swap的使用,從而避免沒必要要的swap對性能形成的影響。接下來,咱們就一塊兒學習一下如何調優該參數吧!緩存
一.建立交換分區app
1>.什麼是虛擬內存異步
若是物理內存不夠用時,能夠將那些最近不多使用的頁面數據(Page)置換出去,即切換到硬盤上,可是要注意的是內存文件的格式和硬盤中文件的格式是不同的,因此這個分區必須格式化成跟內存兼容的模式不能轉換成文件的格式。以便把內存的page直接存入這個分區,方便內存直接調用。而這個頁面(page)數據對於32位的操做系統一個page大概是4K左右,對於64位操做系統這個page大小是可變的,4k-2M的大小都是比較常見的。事實上到底能使用多大的頁面(page)取決於CPU而不取決於內存喲!這就是虛擬內存的概念。在linux上咱們稱之爲交換分區。記住,虛擬內存必須是一個單獨的分區。ide
2>.虛擬內存能代替物理內存運行程序嗎?性能
答案是否認的,只是使用虛擬內存暫時保存數據,而不是代替物理內存運行程序。 學習
3>.虛擬內存的做用優化
當運行某個大程序、大遊戲,須要的內存超過空閒內存但小於物理內存總量時,會暫時把內存裏這些數據放到磁盤上的虛擬內存裏,空出物理內存運行遊戲。等退出遊戲後,又會把虛擬內存裏的東西讀出來,放回物理內存。因此,虛擬內存,並非用來虛擬物理內存的,而是暫存數據的。若是對內存的需求大於物理內存總量,那虛擬內存設多大都無論用。電腦內存過低,根本的方法仍是增長物理內存,才能流暢。虛擬內存機制上就無論用,即便管用,比物理內存低100倍的速度,也管不上什麼實際的做用。因此,虛擬內存大了是沒用的,反而白佔用磁盤空間。
4>.交換分區經常使用的參數介紹
交換分區: mkswap 格式化爲虛擬內存 -L label 指定卷標 swapon 啓動虛擬內存 -a 啓動全部的虛擬分區 -p:指定優先級 swapoff 關閉虛擬內存 更多參數請參考man mkswap
5>.案例實操-建立交換分區的步驟
[root@yinzhengjie ~]# fdisk /dev/sdb #對第二塊硬盤進行分區調整 WARNING: DOS-compatible mode is deprecated. It's strongly recommended to switch off the mode (command 'c') and change display units to sectors (command 'u'). Command (m for help): p #查看當前分區狀況 Disk /dev/sdb: 10.7 GB, 10737418240 bytes 255 heads, 63 sectors/track, 1305 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disk identifier: 0x8614a108 Device Boot Start End Blocks Id System /dev/sdb1 1 132 1060258+ 83 Linux /dev/sdb2 133 264 1060290 83 Linux /dev/sdb3 265 526 2104515 83 Linux /dev/sdb4 527 1305 6257317+ 5 Extended /dev/sdb5 527 919 3156741 83 Linux /dev/sdb6 920 1181 2104483+ 83 Linux #我想講第6個分區弄成交換分區。 Command (m for help): t #調整分區ID Partition number (1-6): 6 #選擇分區編號爲6 Hex code (type L to list codes): L #查看分區類型所對應的ID號,咱們發現「82」就是交換分區的編號 0 Empty 24 NEC DOS 81 Minix / old Lin bf Solaris 1 FAT12 39 Plan 9 82 Linux swap / So c1 DRDOS/sec (FAT- 2 XENIX root 3c PartitionMagic 83 Linux c4 DRDOS/sec (FAT- 3 XENIX usr 40 Venix 80286 84 OS/2 hidden C: c6 DRDOS/sec (FAT- 4 FAT16 <32M 41 PPC PReP Boot 85 Linux extended c7 Syrinx 5 Extended 42 SFS 86 NTFS volume set da Non-FS data 6 FAT16 4d QNX4.x 87 NTFS volume set db CP/M / CTOS / . 7 HPFS/NTFS 4e QNX4.x 2nd part 88 Linux plaintext de Dell Utility 8 AIX 4f QNX4.x 3rd part 8e Linux LVM df BootIt 9 AIX bootable 50 OnTrack DM 93 Amoeba e1 DOS access a OS/2 Boot Manag 51 OnTrack DM6 Aux 94 Amoeba BBT e3 DOS R/O b W95 FAT32 52 CP/M 9f BSD/OS e4 SpeedStor c W95 FAT32 (LBA) 53 OnTrack DM6 Aux a0 IBM Thinkpad hi eb BeOS fs e W95 FAT16 (LBA) 54 OnTrackDM6 a5 FreeBSD ee GPT f W95 Ext'd (LBA) 55 EZ-Drive a6 OpenBSD ef EFI (FAT-12/16/ 10 OPUS 56 Golden Bow a7 NeXTSTEP f0 Linux/PA-RISC b 11 Hidden FAT12 5c Priam Edisk a8 Darwin UFS f1 SpeedStor 12 Compaq diagnost 61 SpeedStor a9 NetBSD f4 SpeedStor 14 Hidden FAT16 <3 63 GNU HURD or Sys ab Darwin boot f2 DOS secondary 16 Hidden FAT16 64 Novell Netware af HFS / HFS+ fb VMware VMFS 17 Hidden HPFS/NTF 65 Novell Netware b7 BSDI fs fc VMware VMKCORE 18 AST SmartSleep 70 DiskSecure Mult b8 BSDI swap fd Linux raid auto 1b Hidden W95 FAT3 75 PC/IX bb Boot Wizard hid fe LANstep 1c Hidden W95 FAT3 80 Old Minix be Solaris boot ff BBT 1e Hidden W95 FAT1 Hex code (type L to list codes): 82 #設置該分區的標號 Changed system type of partition 6 to 82 (Linux swap / Solaris) Command (m for help): P #查看當前分區狀況 Disk /dev/sdb: 10.7 GB, 10737418240 bytes 255 heads, 63 sectors/track, 1305 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disk identifier: 0x8614a108 Device Boot Start End Blocks Id System /dev/sdb1 1 132 1060258+ 83 Linux /dev/sdb2 133 264 1060290 83 Linux /dev/sdb3 265 526 2104515 83 Linux /dev/sdb4 527 1305 6257317+ 5 Extended /dev/sdb5 527 919 3156741 83 Linux /dev/sdb6 920 1181 2104483+ 82 Linux swap / Solaris Command (m for help): W #保存並退出 The partition table has been altered! Calling ioctl() to re-read partition table. Syncing disks. [root@yinzhengjie ~]# [root@yinzhengjie ~]# fdisk -l /dev/sdb #查看分區信息 Disk /dev/sdb: 10.7 GB, 10737418240 bytes 255 heads, 63 sectors/track, 1305 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disk identifier: 0x8614a108 Device Boot Start End Blocks Id System /dev/sdb1 1 132 1060258+ 83 Linux /dev/sdb2 133 264 1060290 83 Linux /dev/sdb3 265 526 2104515 83 Linux /dev/sdb4 527 1305 6257317+ 5 Extended /dev/sdb5 527 919 3156741 83 Linux /dev/sdb6 920 1181 2104483+ 82 Linux swap / Solaris [root@yinzhengjie ~]#
[root@yinzhengjie ~]# kpartx -af /dev/sdb [root@yinzhengjie ~]# partx -a /dev/sdb #重讀分區表信息,其實也能夠不用敲擊這些命令的若是你是一塊新硬盤的話。 BLKPG: Device or resource busy error adding partition 1 BLKPG: Device or resource busy error adding partition 2 BLKPG: Device or resource busy error adding partition 3 BLKPG: Device or resource busy error adding partition 4 BLKPG: Device or resource busy error adding partition 5 BLKPG: Device or resource busy error adding partition 6 [root@yinzhengjie ~]#
[root@yinzhengjie ~]# mkswap /dev/sdb6 #將分區格式化成swap格式 Setting up swapspace version 1, size = 2104476 KiB no label, UUID=41687bb2-c775-489c-9b32-1e4be73c233b #看見沒有,這裏是「no label」,是由於我沒有定義卷標名。 [root@yinzhengjie ~]# [root@yinzhengjie ~]# mkswap -L myswap /dev/sdb6 #用-L參數定義一個卷標名。 Setting up swapspace version 1, size = 2104476 KiB LABEL=myswap, UUID=0553b99a-ee75-4476-8eda-70c591206467 #看見沒,「LABEL=myswap」這就是我定義的卷標名稱。 [root@yinzhengjie ~]#
[root@yinzhengjie ~]# cat /proc/meminfo | grep "^S" #查看當前交換分區大小 SwapCached: 0 kB SwapTotal: 2031612 kB #目前交換分區大小爲2G SwapFree: 2031612 kB #表示空閒交換分區大小 Shmem: 1444 kB Slab: 75020 kB SReclaimable: 15620 kB SUnreclaim: 59400 kB [root@yinzhengjie ~]# [root@yinzhengjie ~]# swapon /dev/sdb6 #啓用咱們已經格式化好的交換分區「/dev/sdb」 [root@yinzhengjie ~]# cat /proc/meminfo | grep "^S" #再次查看當前交換分區大小 SwapCached: 0 kB SwapTotal: 4136088 kB #咱們發現交換分區大小變大了2G SwapFree: 4136088 kB Shmem: 1444 kB Slab: 75148 kB SReclaimable: 15656 kB SUnreclaim: 59492 kB [root@yinzhengjie ~]# [root@yinzhengjie ~]# swapoff /dev/sdb6 #關閉交換分區「/dev/sdb」 [root@yinzhengjie ~]# [root@yinzhengjie ~]# cat /proc/meminfo | grep "^S" #驗證是否關閉成功 SwapCached: 0 kB SwapTotal: 2031612 kB #發現的確是少了2G的空間 SwapFree: 2031612 kB Shmem: 1444 kB Slab: 75068 kB SReclaimable: 15636 kB SUnreclaim: 59432 kB [root@yinzhengjie ~]#
6>.Linux清除swap方法
想要了解更多關於文件系統的知識,詳情請參考:https://www.cnblogs.com/yinzhengjie/p/6840563.html 。
二.swappiness參數在內存與交換分區之間優化做用
swappiness的值的大小對如何使用swap分區是有着很大的聯繫的。先前,人們建議把vm.swapiness設置爲0,它意味着「除非發生內存益處,不然不要進行內存交換」。直到Linux內核3.5-rcl版本發佈,這個值的意義才發生了變化。這個變化被一直到其餘的發行版本上,包括RedHat企業版內核2.6.32-303。在發生變化以後,0意味着「在任何狀況下都不要發生交換」。因此如今建議把這個值設置爲1。swappiness=100的時候表示積極的使用swap分區,而且把內存上的數據及時的搬運到swap空間裏面。
1>.linux的swappiness參數的默認設置爲60([root@yinzhengjie ~]# cat /proc/sys/vm/swappiness)
也就是說,你的內存在使用到100-60=40%的時候,就開始出現有交換分區的使用。你們知道,內存的速度會比磁盤快不少,這樣子會加大系統io,同時造的成大量頁的換進換出,嚴重影響系統的性能,因此咱們在操做系統層面,要儘量使用內存,對該參數進行調整。
2>.臨時調整swappiness的方法([root@yinzhengjie ~]# sysctl vm.swappiness=1)
3>.永久調整swappiness的方法([root@yinzhengjie ~]# echo "vm.swappiness=1" >> /etc/sysctl.conf)
在linux中,能夠經過修改swappiness內核參數,下降系統對swap的使用,從而提升系統的性能。簡單地說這個參數定義了系統對swap的使用傾向,默認值爲60,值越大表示越傾向於使用swap。不推薦設爲0,由於這樣作會對3.5以上的kernel禁止對swap的使用,我推薦打擊設置一個較小對值,好比1,它只是最大限度地下降了使用swap的可能性。
4>.查看swappiness參數的當前設置
三.使用vm.dirty_ratio和vm.dirty_background_ratio更好的Linux磁盤緩存和性能
1>.髒頁對概念
髒頁是linux內核中的概念,由於硬盤的讀寫速度遠趕不上內存的速度,系統就把讀寫比較頻繁的數據事先放到內存中,以提升讀寫速度,這就叫高速緩存,linux是以頁做爲高速緩存的單位,當進程修改了高速緩存裏的數據時,該頁就被內核標記爲髒頁,內核將會在合適的時間把髒頁的數據寫到磁盤中去,以保持高速緩存中的數據和磁盤中的數據是一致的。
2>.相關參數解釋
[root@yinzhengjie ~]# sysctl -a | grep dirty vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 10 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 30 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# vm.dirty_background_ratio : 是內存能夠填充「髒數據」的百分比。這些「髒數據」在稍後是會寫入磁盤的,pdflush/flush/kdmflush這些後臺進程會稍後清理髒數據。舉一個例子,我有32G內存,那麼有3.2G的內存能夠待着內存裏,超過3.2G的話就會有後來進程來清理它。 vm.dirty_ratio: 是絕對的髒數據限制,內存裏的髒數據百分比不能超過這個值。若是髒數據超過這個數量,新的IO請求將會被阻擋,直到髒數據被寫進磁盤。這是形成IO卡頓的重要緣由,但這也是保證內存中不會存在過量髒數據的保護機制。 vm.dirty_background_bytes和vm.dirty_bytes是 指定這些參數的另外一種方法。若是設置_bytes版本,則_ratio版本將變爲0,反之亦然。 vm.dirty_expire_centisecs : 指定髒數據能存活的時間。在這裏它的值是30秒。當 pdflush/flush/kdmflush 進行起來時,它會檢查是否有數據超過這個時限,若是有則會把它異步地寫到磁盤中。畢竟數據在內存裏待過久也會有丟失風險。 vm.dirty_writeback_centisecs: 指定多長時間 pdflush/flush/kdmflush 這些進程會起來一次。
以上說明飲用自:https://blog.csdn.net/csCrazybing/article/details/78127308
3>.調整內核對髒頁對處理方式可讓咱們從中獲益
髒頁會被沖刷到磁盤上,調整內核對髒頁的處理方式可讓咱們從中獲益。Kafka依賴I/O性能爲生產者提供了快速的響應。這就是爲何日誌片斷通常要保存在快速磁盤上,不論是單個快速磁盤(如SSD)仍是具備NVRAM緩存的磁盤子系統(如RAID)。這樣一來,在後臺刷新進程將髒頁寫入磁盤以前,能夠減小髒頁的數量,這個能夠經過vm.dirty_backgroud_ratio設置爲小於10的值來實現。改值指的是系統內存的百分比,大部分狀況下設置爲5就能夠來。它不該該被設置爲0,由於那樣會促使內核頻繁地刷新頁面,從而下降內核爲底層設備的磁盤寫入提供緩衝的能力。
經過設置vm.dirty_ratio參數能夠增長被內核進程刷新到磁盤以前的髒頁數量,能夠將它設置爲大於20的值(這也是系統內存的百分比),這個值可設置的範圍很廣,60~80是個比較合理的區間。不過調整這個參數會帶來一些風險,包括未刷新磁盤操做的數量和同步刷新引發的長時間I/O等待。若是篡改參數設置了較高的值,建議啓用Kafka的複製功能,避免因系統崩潰形成數據丟失。
爲了給這些參數設置合適的值,最好是在Kafka集羣運行期間檢查髒頁的數量,不論是在生產環境仍是在模擬環境。能夠在「/proc/vmstat」文件裏查看當前髒頁的數量。
4>. 減小Cache(虛擬機的典型應用)
你能夠針對要作的事情,來制定一個合適的值。 在一些狀況下,咱們有快速的磁盤子系統,它們有自帶的帶備用電池的NVRAM caches,這時候把數據放在操做系統層面就顯得相對高風險了。因此咱們但願系統更及時地往磁盤寫數據。 能夠在/etc/sysctl.conf中加入下面兩行,並執行"sysctl -p" vm.dirty_background_ratio = 5 vm.dirty_ratio = 10
這是虛擬機的典型應用。不建議將它設置成0,畢竟有點後臺IO能夠提高一些程序的性能。
5>.增長Cache(適合數據並非很重要的場景,要求讀寫的效率想到高的場景)
在一些場景中增長Cache是有好處的。例如,數據不重要丟了也不要緊,並且有程序重複地讀寫一個文件。容許更多的cache,你能夠更多地在內存上進行讀寫,提升速度。 vm.dirty_background_ratio = 50 vm.dirty_ratio = 80
有時候還會提升vm.dirty_expire_centisecs 這個參數的值,來容許髒數據更長時間地停留。
6>.增減兼有(若是你部署kafka集羣的話,我推薦使用這個方案,在《Kafka 權威指南》一書中,也有相關的記載喲!)
有時候系統須要應對突如其來的高峯數據,它可能會拖慢磁盤。(好比說,每一個小時開始時進行的批量操做等) 這個時候須要允許更多的髒數據存到內存,讓後臺進程慢慢地經過異步方式將數據寫到磁盤當中。 vm.dirty_background_ratio = 5 vm.dirty_ratio = 80
這個時候,後臺進行在髒數據達到5%時就開始異步清理,但在80%以前系統不會強制同步寫磁盤。這樣可使IO變得更加平滑。
7>.案例實操-調整內核對髒頁的處理方式
[root@yinzhengjie ~]# sysctl -a | grep vm.dirty sysctl: reading key "net.ipv6.conf.all.stable_secret" sysctl: reading key "net.ipv6.conf.default.stable_secret" sysctl: reading key "net.ipv6.conf.ens160.stable_secret" sysctl: reading key "net.ipv6.conf.lo.stable_secret" vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 10 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 30 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# [root@yinzhengjie ~]# cat /etc/sysctl.conf | grep -v ^# vm.swappiness=1 [root@yinzhengjie ~]# [root@yinzhengjie ~]# echo "vm.dirty_background_ratio=5" >> /etc/sysctl.conf [root@yinzhengjie ~]# [root@yinzhengjie ~]# echo "vm.dirty_ratio=80" >> /etc/sysctl.conf [root@yinzhengjie ~]# [root@yinzhengjie ~]# cat /etc/sysctl.conf | grep -v ^# vm.swappiness=1 vm.dirty_background_ratio=5 vm.dirty_ratio=80 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -p vm.swappiness = 1 vm.dirty_background_ratio = 5 vm.dirty_ratio = 80 [root@yinzhengjie ~]# [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -a | grep vm.dirty sysctl: reading key "net.ipv6.conf.all.stable_secret" sysctl: reading key "net.ipv6.conf.default.stable_secret" sysctl: reading key "net.ipv6.conf.ens160.stable_secret" sysctl: reading key "net.ipv6.conf.lo.stable_secret" vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 5 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 80 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -q vm.dirty_background_ratio vm.dirty_background_ratio = 5 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -q vm.dirty_ratio vm.dirty_ratio = 80 [root@yinzhengjie ~]# [root@yinzhengjie ~]#