http://blog.chinaunix.net/uid-7530389-id-2050116.htmljavascript
因爲各類的I/O負載情形各異,Linux系統中文件系統的缺省配置通常來講都比較中庸,強調廣泛適用性。然而在特定應用下,這種配置每每在I/O性能方面不能達到最優。所以,若是應用對I/O性能要求較高,除了採用性能更高的硬件(如磁盤、HBA卡、CPU、MEM等)外,咱們還能夠經過對文件系統進行性能調優,來得到更高的I/O性能提高。總的來講,主要能夠從三個方面來作工做:html
一、Disk相關參數調優java
二、文件系統自己參數調優node
三、文件系統掛載(mount)參數調優linux
固然,負載狀況不一樣,須要結合理論分析與充分的測試和實驗來獲得合理的參數。下面以SAS(Serial attached SCSI)磁盤上的EXT3文件系統爲例,給出Linux文件系統性能優化的通常方法。請根據自身狀況做適合調整,不要生搬硬套。ios
一、Disk相關參數web
1.1 Cache mode:啓用WCE=1(Write Cache Enable), RCD=0(Read Cache Disable)模式算法
sdparm -s WCE=1, RCD=0 -S /dev/sdb數據庫
1.2 Linux I/O scheduler算法安全
通過實驗,在重負載情形下,deadline調度方式對squidI/O負載具備更好的性能表現。其餘三種爲noop(fifo), as, cfq,noop多用於SAN/RAID存儲系統,as多用於大文件順序讀寫,
cfq適於桌面應用。
echo deadline > /sys/block/sdb/queue/scheduler
1.3 deadline調度參數
對於redhat linux建議 read_expire = 1/2 write_expire,對於大量頻繁的小文件I/O負載,應當這二者取較小值。更合適的值,須要經過實驗測試獲得。
echo 500 > /sys/block/sdb/queue/iosched/read_expire
echo 1000 > /sys/block/sdb/queue/iosched/write_expire
1.4 readahead 預讀扇區數
預讀是提升磁盤性能的有效手段,目前對順序讀比較有效,主要利用數據的局部性特色。好比在個人系統上,經過實驗設置通讀256塊扇區性能較優。
blockdev --setra 256 /dev/sdb
二、EXT3文件系統參數
2.1 block size = 4096 (4KB)
mkfs.ext3 -b指定,大的數據塊會浪費必定空間,但會提高I/O性能。EXT3文件系統塊大小能夠爲1KB、2KB、4KB。
2.2 inode size
這是一個邏輯概念,即一個inode所對應的文件相應占用多大物理空間。mkfs.ext3 -i指定,可用文件系統文件大小平均值來設定,可減小磁盤尋址和元數據操做時間。
2.3 reserved block
mkfs.ext3 -m指定,缺省爲5%,可調小該值以增大部分可用存儲空間。
2.4 disable journal
對數據安全要求不高的應用(如web cache),能夠關閉日誌功能,以提升I/O性能。
tune2fs -O^has_journal /dev/sdb
三、mount參數
3.1 noatime, nodirtime
訪問文件目錄,不修改訪問文件元信息,對於頻繁的小文件負載,能夠有效提升性能。
3.2 async
異步I/O方式,提升寫性能。
3.3 data=writeback (if journal)
日誌模式下,啓用寫回機制,可提升寫性能。數據寫入順序再也不保護,可能會形成文件系統數據不一致性,重要數據應用慎用。
3.4 barrier=0 (if journal)
barrier=1,能夠保證文件系統在日誌數據寫入磁盤以後才寫commit記錄,但影響性能。重要數據應用慎用,有可能形成數據損壞。
四、小結
以/dev/sdb爲例,優化操做方法以下,參數請自行調整。
sdparm -s WCE=1, RCD=0 -S /dev/sdb
echo deadline > /sys/block/sdb/queue/scheduler
echo 500 > /sys/block/sdb/queue/iosched/read_expire
echo 1000 > /sys/block/sdb/queue/iosched/write_expire
blockdev --setra 256 /dev/sdb
mkfs.ext3 -b 4096 -i 16384 -m 2 /dev/sdb1
tune2fs -O^has_journal /dev/sdb1
mount /dev/sdb1 /cache1 -o defaults,noatime,nodirtime,async,data=writeback,barrier=0 (if with journal)
mount /dev/sdb1 /cache1 -o defaults,noatime,nodirtime,async (if without journal)
請你們注意不要模仿,每臺服務器的業務不同,狀況不同,不要在線上的服務器試驗。
性能分析工具
CPU性能分析工具:
vmstat
ps
sar
time
strace
pstree
top
Memory性能分析工具:
vmstat
strace
top
ipcs
ipcrm
cat /proc/meminfo
cat /proc/slabinfo
cat /proc/<pid #>/maps
I/O性能分析工具:
vmstat
iostat
repquota
quotacheck
Network性能分析工具:
ifconfig
ethereal
tethereal
iptraf
iwconfig
nfsstat
mrtg
ntop
netstat
cat /proc/sys/net
Linux 性能調優工具
當經過上述工具及命令,咱們發現了應用的性能瓶頸之後,咱們能夠經過如下工具或者命令來進行性能的調整。
CPU性能調優工具:
nice / renic
sysctl
Memory性能調優工具:
swapon
ulimit
sysctl
I/O性能調優工具:
edquota
quoton
sysctl
boot line:
elevator= <ioscheduler>
Network性能調優工具:
ifconfig
iwconfig
sysctl
CPU性能調整
當一個系統的CPU空閒時間或者等待時間小於5%時,咱們就能夠認爲系統的CPU資源耗盡,咱們應該對CPU進行性能調整。
CPU性能調整方法:
編輯/proc/sys/kernel/中的文件,修改內核參數。
#cd /proc/sys/kernel/
# ls /proc/sys/kernel/
acct hotplug panic real-root-dev
cad_pid modprobe panic_on_oops sem
cap-bound msgmax pid_max shmall
core_pattern msgmnb powersave-nap shmmax
core_uses_pid msgmni print-fatal-signals shmmni
ctrl-alt-del ngroups_max printk suid_dumpable
domainname osrelease printk_ratelimit sysrq
exec-shield ostype printk_ratelimit_burst tainted
exec-shield-randomize overflowgid pty threads-max
hostname overflowuid random version
通常可能須要編輯的是pid_max和threads-max,以下:
# sysctl kernel.threads-max
kernel.threads-max = 8192
# sysctl kernel.threads-max=10000
kernel.threads-max = 10000
Memory性能調整
當一個應用系統的內存資源出現下面的狀況時,咱們認爲須要進行Memory性能調整:
頁面頻繁換進換出;
缺乏非活動頁。
例如在使用vmstat命令時發現,memory的cache使用率很是低,而swap的si或者so則有比較高的數據值時,應該警戒內存的性能問題。
Memory性能調整方法:
1。關閉非核心的服務進程。
相關的方法請見CPU性能調整部分。
2。修改/proc/sys/vm/下的系統參數。
# ls /proc/sys/vm/
block_dump laptop_mode nr_pdflush_threads
dirty_background_ratio legacy_va_layout overcommit_memory
dirty_expire_centisecs lower_zone_protection overcommit_ratio
dirty_ratio max_map_count page-cluster
dirty_writeback_centisecs min_free_kbytes swappiness
hugetlb_shm_group nr_hugepages vfs_cache_pressure
# sysctl vm.min_free_kbytes
vm.min_free_kbytes = 1024
# sysctl -w vm.min_free_kbytes=2508
vm.min_free_kbytes = 2508
# cat /etc/sysctl.conf
…
vm.min_free_kbytes=2058
…
3。配置系統的swap交換分區等於或者2倍於物理內存。
# free
total used free shared buffers cached
Mem: 987656 970240 17416 0 63324 742400
-/+ buffers/cache: 164516 823140
Swap: 1998840 150272 1848568
I/O性能調整
系統出現如下狀況時,咱們認爲該系統存在I/O性能問題:
系統等待I/O的時間超過50%;
一個設備的平均隊列長度大於5。
咱們能夠經過諸如vmstat等命令,查看CPU的wa等待時間,以獲得系統是否存在I/O性能問題的準確信息。
I/O性能調整方法:
1。修改I/O調度算法。
Linux已知的I/O調試算法有4種:
deadline - Deadline I/O scheduler
as - Anticipatory I/O scheduler
cfq - Complete Fair Queuing scheduler
noop - Noop I/O scheduler
能夠編輯/etc/yaboot.conf文件修改參數elevator獲得。
# vi /etc/yaboot.conf
image=/vmlinuz-2.6.9-11.EL
label=linux
read-only
initrd=/initrd-2.6.9-11.EL.img
root=/dev/VolGroup00/LogVol00
append="elevator=cfq rhgb quiet"
2。文件系統調整。
對於文件系統的調整,有幾個公認的準則:
將I/O負載相對平均的分配到全部可用的磁盤上;
選擇合適的文件系統,Linux內核支持reiserfs、ext二、ext三、jfs、xfs等文件系統;
# mkfs -t reiserfs -j /dev/sdc1
文件系統即便在創建後,自己也能夠經過命令調優;
tune2fs (ext2/ext3)
reiserfstune (reiserfs)
jfs_tune (jfs)
3。文件系統Mount時可加入選項noatime、nodiratime。
# vi /etc/fstab
…
/dev/sdb1 /backup reiserfs acl, user_xattr, noatime, nodiratime 1 1
4。調整塊設備的READAHEAD,調大RA值。
[root@overflowuid ~]# blockdev --report
RO RA SSZ BSZ StartSec Size Device
…
rw 256 512 4096 0 71096640 /dev/sdb
rw 256 512 4096 32 71094240 /dev/sdb1
[root@overflowuid ~]# blockdev --setra 2048 /dev/sdb1
[root@overflowuid ~]# blockdev --report
RO RA SSZ BSZ StartSec Size Device
…
rw 2048 512 4096 0 71096640 /dev/sdb
rw 2048 512 4096 32 71094240 /dev/sdb1
Network性能調整
一個應用系統出現以下狀況時,咱們認爲該系統存在網絡性能問題:
網絡接口的吞吐量小於指望值;
出現大量的丟包現象;
出現大量的衝突現象。
Network性能調整方法:
1。調整網卡的參數。
# ethtool eth0
Settings for eth0:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 100Mb/s
Duplex: Half
Port: Twisted Pair
PHYAD: 0
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: d
Wake-on: d
Current message level: 0x00000007 (7)
Link detected: yes
#ethtool -s eth0 duplex full
#ifconfig eth0 mtu 9000 up
2。增長網絡緩衝區和包的隊列。
# cat /proc/sys/net/ipv4/tcp_mem
196608 262144 393216
# cat /proc/sys/net/core/rmem_default
135168
# cat /proc/sys/net/core/rmem_max
131071
# cat /proc/sys/net/core/wmem_default
135168
# cat /proc/sys/net/core/wmem_max
131071
# cat /proc/sys/net/core/optmem_max
20480
# cat /proc/sys/net/core/netdev_max_backlog
300
# sysctl net.core.rmem_max
net.core.rmem_max = 131071
# sysctl -w net.core.rmem_max=135168
net.core.rmem_max = 135168
3。調整Webserving。
# sysctl net.ipv4.tcp_tw_reuse
net.ipv4.tcp_tw_reuse = 0
# sysctl -w net.ipv4.tcp_tw_reuse=1
net.ipv4.tcp_tw_reuse = 1
# sysctl net.ipv4.tcp_tw_recycle
net.ipv4.tcp_tw_recycle = 0
# sysctl -w net.ipv4.tcp_tw_recycle=1
net.ipv4.tcp_tw_recycle = 1
今天跟同事學了一招,能夠經過修改swappiness內核參數,下降系統對swap的使用,從而提升系統的性能。
遇到的問題是這樣的,新版本產品發佈後,每小時對內存的使用會有一個尖峯。雖然這個峯值還遠沒有到達服務器的物理內存,但確發現內存使用達到峯值時系統開始使用swap。在swap的過程當中系統性能會有所降低,表現爲較大的服務延遲。對這種狀況,能夠經過調節swappiness內核參數下降系統對swap的使用,從而避免沒必要要的swap對性能形成的影響。
這裏有一篇關於swappiness內核參數的詳細介紹。簡單地說這個參數定義了系統對swap的使用傾向,默認值爲60,值越大表示越傾向於使用swap。能夠設爲0,這樣作並不會禁止對swap的使用,只是最大限度地下降了使用swap的可能性。經過sysctl -q vm.swappiness能夠查看參數的當前設置。修改參數的方法是修改/etc/sysctl.conf文件,加入vm.swappiness=xxx,並重起系統。若是不想重起,能夠經過sysctl -p動態加載/etc/sysctl.conf文件,但建議這樣作以前先清空swap。