Linux文件系統性能優化 (轉)

時間 2019-11-06

標籤 linux 文件系統性能優化欄目 Linux 简体版

原文原文鏈接

http://blog.chinaunix.net/uid-7530389-id-2050116.htmljavascript

因爲各類的I/O負載情形各異，Linux系統中文件系統的缺省配置通常來講都比較中庸，強調廣泛適用性。然而在特定應用下，這種配置每每在I/O性能方面不能達到最優。所以，若是應用對I/O性能要求較高，除了採用性能更高的硬件（如磁盤、HBA卡、CPU、MEM等）外，咱們還能夠經過對文件系統進行性能調優，來得到更高的I/O性能提高。總的來講，主要能夠從三個方面來作工做：html

一、Disk相關參數調優java

二、文件系統自己參數調優node

三、文件系統掛載(mount)參數調優linux

固然，負載狀況不一樣，須要結合理論分析與充分的測試和實驗來獲得合理的參數。下面以SAS(Serial attached SCSI)磁盤上的EXT3文件系統爲例，給出Linux文件系統性能優化的通常方法。請根據自身狀況做適合調整，不要生搬硬套。ios

一、Disk相關參數web

1.1 Cache mode:啓用WCE=1(Write Cache Enable), RCD=0(Read Cache Disable)模式算法

sdparm -s WCE=1, RCD=0 -S /dev/sdb數據庫

1.2 Linux I/O scheduler算法安全

通過實驗，在重負載情形下，deadline調度方式對squidI/O負載具備更好的性能表現。其餘三種爲noop(fifo), as, cfq，noop多用於SAN/RAID存儲系統，as多用於大文件順序讀寫，

cfq適於桌面應用。

echo deadline > /sys/block/sdb/queue/scheduler

1.3 deadline調度參數

對於redhat linux建議 read_expire = 1/2 write_expire，對於大量頻繁的小文件I/O負載，應當這二者取較小值。更合適的值，須要經過實驗測試獲得。

echo 500 > /sys/block/sdb/queue/iosched/read_expire

echo 1000 > /sys/block/sdb/queue/iosched/write_expire

1.4 readahead 預讀扇區數

預讀是提升磁盤性能的有效手段，目前對順序讀比較有效，主要利用數據的局部性特色。好比在個人系統上，經過實驗設置通讀256塊扇區性能較優。

blockdev --setra 256 /dev/sdb

二、EXT3文件系統參數

2.1 block size = 4096 (4KB)

mkfs.ext3 -b指定，大的數據塊會浪費必定空間，但會提高I/O性能。EXT3文件系統塊大小能夠爲1KB、2KB、4KB。

2.2 inode size

這是一個邏輯概念，即一個inode所對應的文件相應占用多大物理空間。mkfs.ext3 -i指定，可用文件系統文件大小平均值來設定，可減小磁盤尋址和元數據操做時間。

2.3 reserved block

mkfs.ext3 -m指定，缺省爲5%，可調小該值以增大部分可用存儲空間。

2.4 disable journal

對數據安全要求不高的應用（如web cache），能夠關閉日誌功能，以提升I/O性能。

tune2fs -O^has_journal /dev/sdb

三、mount參數

3.1 noatime, nodirtime

訪問文件目錄，不修改訪問文件元信息，對於頻繁的小文件負載，能夠有效提升性能。

3.2 async

異步I/O方式，提升寫性能。

3.3 data=writeback (if journal)

日誌模式下，啓用寫回機制，可提升寫性能。數據寫入順序再也不保護，可能會形成文件系統數據不一致性，重要數據應用慎用。

3.4 barrier=0 (if journal)

barrier=1，能夠保證文件系統在日誌數據寫入磁盤以後才寫commit記錄，但影響性能。重要數據應用慎用，有可能形成數據損壞。

四、小結

以/dev/sdb爲例，優化操做方法以下，參數請自行調整。

sdparm -s WCE=1, RCD=0 -S /dev/sdb

echo deadline > /sys/block/sdb/queue/scheduler

echo 500 > /sys/block/sdb/queue/iosched/read_expire

echo 1000 > /sys/block/sdb/queue/iosched/write_expire

blockdev --setra 256 /dev/sdb

mkfs.ext3 -b 4096 -i 16384 -m 2 /dev/sdb1

tune2fs -O^has_journal /dev/sdb1

mount /dev/sdb1 /cache1 -o defaults,noatime,nodirtime,async,data=writeback,barrier=0 (if with journal)

mount /dev/sdb1 /cache1 -o defaults,noatime,nodirtime,async (if without journal)

請你們注意不要模仿，每臺服務器的業務不同，狀況不同，不要在線上的服務器試驗。

性能分析工具

CPU性能分析工具：

vmstat

sar

time

strace

pstree

top

Memory性能分析工具：

vmstat

strace

top

ipcs

ipcrm

cat /proc/meminfo

cat /proc/slabinfo

cat /proc/<pid #>/maps

I/O性能分析工具：

vmstat

iostat

repquota

quotacheck

Network性能分析工具：

ifconfig

ethereal

tethereal

iptraf

iwconfig

nfsstat

mrtg

ntop

netstat

cat /proc/sys/net

Linux 性能調優工具

當經過上述工具及命令，咱們發現了應用的性能瓶頸之後，咱們能夠經過如下工具或者命令來進行性能的調整。

CPU性能調優工具：

nice / renic

sysctl

Memory性能調優工具：

swapon

ulimit

sysctl

I/O性能調優工具：

edquota

quoton

sysctl

boot line:

elevator= <ioscheduler>

Network性能調優工具：

ifconfig

iwconfig

sysctl

CPU性能調整

當一個系統的CPU空閒時間或者等待時間小於5%時，咱們就能夠認爲系統的CPU資源耗盡，咱們應該對CPU進行性能調整。

CPU性能調整方法：

編輯/proc/sys/kernel/中的文件，修改內核參數。

#cd /proc/sys/kernel/

# ls /proc/sys/kernel/

acct hotplug panic real-root-dev

cad_pid modprobe panic_on_oops sem

cap-bound msgmax pid_max shmall

core_pattern msgmnb powersave-nap shmmax

core_uses_pid msgmni print-fatal-signals shmmni

ctrl-alt-del ngroups_max printk suid_dumpable

domainname osrelease printk_ratelimit sysrq

exec-shield ostype printk_ratelimit_burst tainted

exec-shield-randomize overflowgid pty threads-max

hostname overflowuid random version

通常可能須要編輯的是pid_max和threads-max，以下：

# sysctl kernel.threads-max

kernel.threads-max = 8192

# sysctl kernel.threads-max=10000

kernel.threads-max = 10000

Memory性能調整

當一個應用系統的內存資源出現下面的狀況時，咱們認爲須要進行Memory性能調整：

頁面頻繁換進換出；

缺乏非活動頁。

例如在使用vmstat命令時發現，memory的cache使用率很是低，而swap的si或者so則有比較高的數據值時，應該警戒內存的性能問題。

Memory性能調整方法：

1。關閉非核心的服務進程。

相關的方法請見CPU性能調整部分。

2。修改/proc/sys/vm/下的系統參數。

# ls /proc/sys/vm/

block_dump laptop_mode nr_pdflush_threads

dirty_background_ratio legacy_va_layout overcommit_memory

dirty_expire_centisecs lower_zone_protection overcommit_ratio

dirty_ratio max_map_count page-cluster

dirty_writeback_centisecs min_free_kbytes swappiness

hugetlb_shm_group nr_hugepages vfs_cache_pressure

# sysctl vm.min_free_kbytes

vm.min_free_kbytes = 1024

# sysctl -w vm.min_free_kbytes=2508

vm.min_free_kbytes = 2508

# cat /etc/sysctl.conf

…

vm.min_free_kbytes=2058

…

3。配置系統的swap交換分區等於或者2倍於物理內存。

# free

total used free shared buffers cached

Mem: 987656 970240 17416 0 63324 742400

-/+ buffers/cache: 164516 823140

Swap: 1998840 150272 1848568

I/O性能調整

系統出現如下狀況時，咱們認爲該系統存在I/O性能問題：

系統等待I/O的時間超過50%；

一個設備的平均隊列長度大於5。

咱們能夠經過諸如vmstat等命令，查看CPU的wa等待時間，以獲得系統是否存在I/O性能問題的準確信息。

I/O性能調整方法：

1。修改I/O調度算法。

Linux已知的I/O調試算法有4種：

deadline - Deadline I/O scheduler

as - Anticipatory I/O scheduler

cfq - Complete Fair Queuing scheduler

noop - Noop I/O scheduler

能夠編輯/etc/yaboot.conf文件修改參數elevator獲得。

# vi /etc/yaboot.conf

image=/vmlinuz-2.6.9-11.EL

label=linux

read-only

initrd=/initrd-2.6.9-11.EL.img

root=/dev/VolGroup00/LogVol00

append="elevator=cfq rhgb quiet"

2。文件系統調整。

對於文件系統的調整，有幾個公認的準則：

將I/O負載相對平均的分配到全部可用的磁盤上；

選擇合適的文件系統，Linux內核支持reiserfs、ext二、ext三、jfs、xfs等文件系統；

# mkfs -t reiserfs -j /dev/sdc1

文件系統即便在創建後，自己也能夠經過命令調優；

tune2fs (ext2/ext3)

reiserfstune (reiserfs)

jfs_tune (jfs)

3。文件系統Mount時可加入選項noatime、nodiratime。

# vi /etc/fstab

…

/dev/sdb1 /backup reiserfs acl, user_xattr, noatime, nodiratime 1 1

4。調整塊設備的READAHEAD，調大RA值。

[root@overflowuid ~]# blockdev --report

RO RA SSZ BSZ StartSec Size Device

…

rw 256 512 4096 0 71096640 /dev/sdb

rw 256 512 4096 32 71094240 /dev/sdb1

[root@overflowuid ~]# blockdev --setra 2048 /dev/sdb1

[root@overflowuid ~]# blockdev --report

RO RA SSZ BSZ StartSec Size Device

…

rw 2048 512 4096 0 71096640 /dev/sdb

rw 2048 512 4096 32 71094240 /dev/sdb1

Network性能調整

一個應用系統出現以下狀況時，咱們認爲該系統存在網絡性能問題：

網絡接口的吞吐量小於指望值；

出現大量的丟包現象；

出現大量的衝突現象。

Network性能調整方法：

1。調整網卡的參數。

# ethtool eth0

Settings for eth0:

Supported ports: [ TP ]

Supported link modes: 10baseT/Half 10baseT/Full

100baseT/Half 100baseT/Full

1000baseT/Full

Supports auto-negotiation: Yes

Advertised link modes: 10baseT/Half 10baseT/Full

100baseT/Half 100baseT/Full

1000baseT/Full

Advertised auto-negotiation: Yes

Speed: 100Mb/s

Duplex: Half

Port: Twisted Pair

PHYAD: 0

Transceiver: internal

Auto-negotiation: on

Supports Wake-on: d

Wake-on: d

Current message level: 0x00000007 (7)

Link detected: yes

#ethtool -s eth0 duplex full

#ifconfig eth0 mtu 9000 up

2。增長網絡緩衝區和包的隊列。

# cat /proc/sys/net/ipv4/tcp_mem

196608 262144 393216

# cat /proc/sys/net/core/rmem_default

135168

# cat /proc/sys/net/core/rmem_max

131071

# cat /proc/sys/net/core/wmem_default

135168

# cat /proc/sys/net/core/wmem_max

131071

# cat /proc/sys/net/core/optmem_max

20480

# cat /proc/sys/net/core/netdev_max_backlog

300

# sysctl net.core.rmem_max

net.core.rmem_max = 131071

# sysctl -w net.core.rmem_max=135168

net.core.rmem_max = 135168

3。調整Webserving。

# sysctl net.ipv4.tcp_tw_reuse

net.ipv4.tcp_tw_reuse = 0

# sysctl -w net.ipv4.tcp_tw_reuse=1

net.ipv4.tcp_tw_reuse = 1

# sysctl net.ipv4.tcp_tw_recycle

net.ipv4.tcp_tw_recycle = 0

# sysctl -w net.ipv4.tcp_tw_recycle=1

net.ipv4.tcp_tw_recycle = 1

一：IO優化
(1)網絡IO優化，主要經過調整TCP參數調節

kern.maxproc
#系統可用的最大進程數
kern.ipc.maxsockbuf
##最大套接字緩衝區
kern.maxfiles=65536
##系統中容許的最多文件數量，缺省的是幾千個但若是你在運行數據庫或大的很吃描述符的進程能夠
net.inet.tcp.sendspace=65535
##最大的待發送TCP 數據緩衝區空間，應用程序將數據放到這裏就認爲發送成功了，系統TCP堆棧保證數據的正常發送
net.inet.tcp.recvspace=65535
##最大的接受TCP緩衝區空間，系統從這裏將數據分發給不一樣的套接字，增大該空間可提升系統瞬間接受數據的能力以提升性能
kern.ipc.somaxconn=8192
##最大的等待鏈接完成的套接字隊列大小，高負載服務器和受到分佈式服務阻塞攻擊的系統也許會由於這個隊列被塞滿而不能提供正常服務。默認僅爲128，根據機器和實際狀況須要改動，太大就浪費了內存
net.inet.udp.recvspace=65535
##最大的接受UDP緩衝區大小
net.inet.udp.maxdgram=57344
##最大的發送UDP數據緩衝區大小
net.local.stream.recvspace=32768
##本地套接字鏈接的數據接收空間
net.local.stream.sendspace=65535
##本地套接字鏈接的數據發送空間
net.inet.icmp.drop_redirect=1
net inet.icmp.log_redirect=1‘
net.inet.ip.redirect=0
net.inet6.ip6.redirect=0
##屏蔽ICMP重定向功能
net.inet.icmp.bmcastecho=0
net.inet.icmp.maskrepl=0
##防止廣播風暴
net.inet.icmp.icmplim=100
##限制系統發送ICMP速率
net.inet.tcp.always_keepalive=0
##設置爲1會幫助系統清除沒有正常斷開的TCP鏈接，這增長了一些網絡帶寬的使用，可是一些死掉的
鏈接最終能被識別並清除。死的TCP鏈接是被撥號用戶存取的系統的一個特別的問題，由於用戶常常
斷開modem而不正確的關閉活動的鏈接。
(2)磁盤IO優化

修改fstab,在加載參數上加入noatime ,禁止加入訪問文件時間
控制swappness 參數，儘可能減小應用的內存被交換到交換分區中，默認是60
塊大小的優化 ,節點塊的優化
block size = 4096(4K)
大的數據塊會浪費必定的空間，好比此設置會使一個空的文件夾佔用4K的空間，不過會提升I/O性能
inode size
這是一個邏輯概念，即一個inode所對應的文件相應占用多大物理空間,mkfs.ext3 -i指定，可用文件系統文件大小平均值來設定，可減小磁盤尋址和元數據操做時間

linux I/O調度方式啓用異步方式，提升讀寫性能

有關IO的幾個內核參數：
/proc/sys/vm/dirty_ratio
這個參數控制文件系統的文件系統寫緩衝區的大小，單位是百分比，表示系統內存的百分比，表示當寫緩衝使用到系統內存多少的時候，開始向磁盤寫出數據。增大之會使用更多系統內存用於磁盤寫緩衝，也能夠極大提升系統的寫性能。可是，當你須要持續、恆定的寫入場合時，應該下降其數值，通常啓動上缺省是 10
/proc/sys/vm/dirty_expire_centisecs
這個參數聲明Linux內核寫緩衝區裏面的數據多「舊」了以後，pdflush進程就開始考慮寫到磁盤中去。單位是 1/100秒。缺省是 30000，也就是 30 秒的數據就算舊了，將會刷新磁盤。對於特別重載的寫操做來講，這個值適當縮小也是好的，但也不能縮小太多，由於縮小太多也會致使IO提升太快。建議設置爲 1500，也就是15秒算舊。
/proc/sys/vm/dirty_background_ratio
這個參數控制文件系統的pdflush進程，在什麼時候刷新磁盤。單位是百分比，表示系統內存的百分比，意思是當寫緩衝使用到系統內存多少的時候， pdflush開始向磁盤寫出數據。增大之會使用更多系統內存用於磁盤寫緩衝，也能夠極大提升系統的寫性能。可是，當你須要持續、恆定的寫入場合時，應該下降其數值，通常啓動上缺省是 5
/proc/sys/vm/dirty_writeback_centisecs
這個參數控制內核的髒數據刷新進程pdflush的運行間隔。單位是 1/100 秒。缺省數值是500，也就是 5 秒。若是你的系統是持續地寫入動做，那麼實際上仍是下降這個數值比較好，這樣能夠把尖峯的寫操做削平成屢次寫操做
固然最主要的仍是升級硬件或經過作RAID實現

用過的文件系統比較：

一、Reiserfs

　大量小文件訪問，衡量指標是IOPS，文件系統性能瓶頸在於文件元數據操做、目錄操做、數據尋址。reiserfs對小文件做了優化，並使用B+ tree組織數據，加速了數據尋址，大大下降了open/create/delete/close等系統調用開銷。mount時指定noatime, nodiratime, notail，減小沒必要要的inode操做，notail關閉tail package功能，以空間換取更高性能。所以，對於隨機的小I/O讀寫，reiserfs是很好的選擇。

二、Ext4

　大文件順序訪問，衡量指標是IO吞吐量，文件系統性能瓶頸在於數據塊佈局(layout)、數據尋址。Ext4對ext3主要做了兩方面的優化:

　一是inode預分配。這使得inode具備很好的局部性特徵，同一目錄文件inode儘可能放在一塊兒，加速了目錄尋址與操做性能。所以在小文件應用方面也具備很好的性能表現。

　二是extent/delay/multi的數據塊分配策略。這些策略使得大文件的數據塊保持連續存儲在磁盤上，數據尋址次數大大減小，顯著提升I/O吞吐量。

所以，對於順序大I/O讀寫，EXT4是很好的選擇。另外，XFS性能在大文件方面也至關不錯。

用到的命令：
檢測硬盤的讀效率:hdparm -tT /dev/hda。
檢測硬盤的寫效率：time dd if=/dev/zero of=/media/hda5/tmp/my-file bs=4k count=65536
寫入字符到/media/hda5/tmp/my-file文件，bs爲塊大小，count爲快數
系統IO狀況：vmstat,若是wa大說明瓶頸在io上。iostat用於監視io狀況

二：CPU 編譯參數優化

CHOST參數：對應CPU類型
CFLAGS參數：
-O3：相對於-O、-O一、-O2，-O3開啓了全部GCC支持的優化特性；
-msse2：開啓CPU所支持的sse2指令集；
-mmmx：參考-msse2
-mfpmath=sse：爲指定指令集生成浮點運算特性（優化浮點運算功能）；
-mcpu：指定CPU型號；
-march：指定CPU型號，基本同-mcpu，GCC根據-march設定的CPU型號決定在生成代碼時可使用哪些種類的指令。（注意！-march參數在某些CPU型號中不可用！）
-pipe：使用管道(pipe)方法替代臨時文件方法在編譯的不一樣階段之間進行通信。

三：系統優化
（1）關閉不用的服務
（2）程序執行效率優化
（3）充分利用多核的優點

今天跟同事學了一招，能夠經過修改swappiness內核參數，下降系統對swap的使用，從而提升系統的性能。

遇到的問題是這樣的，新版本產品發佈後，每小時對內存的使用會有一個尖峯。雖然這個峯值還遠沒有到達服務器的物理內存，但確發現內存使用達到峯值時系統開始使用swap。在swap的過程當中系統性能會有所降低，表現爲較大的服務延遲。對這種狀況，能夠經過調節swappiness內核參數下降系統對swap的使用，從而避免沒必要要的swap對性能形成的影響。

這裏有一篇關於swappiness內核參數的詳細介紹。簡單地說這個參數定義了系統對swap的使用傾向，默認值爲60，值越大表示越傾向於使用swap。能夠設爲0，這樣作並不會禁止對swap的使用，只是最大限度地下降了使用swap的可能性。經過sysctl -q vm.swappiness能夠查看參數的當前設置。修改參數的方法是修改/etc/sysctl.conf文件，加入vm.swappiness=xxx，並重起系統。若是不想重起，能夠經過sysctl -p動態加載/etc/sysctl.conf文件，但建議這樣作以前先清空swap。