目錄 1html
1. 前言 4java
2. 腳本類工具 4node
2.1. 雙引號和單引號 4python
2.2. 取腳本完整文件路徑 4linux
2.5. sed和awk使用外部變量 5github
2.6. awk給外部變量賦值 5redis
2.7. 字符串操做 6shell
4.14. screen、byobu和tmux分屏工具 11
4.18. dstat可取代vmstat/iostat/netstat/ifstat的工具 11
4.19. MultiTail相似tail的同時監控多個文檔工具
12
7.1. valgrind和qcachegrind內存分析工具 19
12. process_monitor.sh進程監控重啓工具 33
13.2. 批量上傳文件工具:mooon_upload 35
本文是個大雜燴,內容爲平常點滴的日積月累,持續更新當中,可關注博客(https://blog.csdn.net/Aquester或http://aquester.blog.chinaunix.net),查看最新版本。文中的內容,可幫忙開發提高分析和定位各種問題,好比找出致使IO負載高的進程等,以及一些簡單的運維工做等。
單引號內的內容不會被展開,雙引號內的內容會被展開。實踐以下:
~> A=123 ~> B1="$A" ~> B2='$A' ~> echo $A 123 ~> echo $B1 123 ~> echo $B2 $A |
---|
但若是單引號外有雙引號,則規則同雙引號,如:
~> B3="'$A'" ~> echo $B3 '123' |
---|
返回是帶全路徑的文件路徑,包括完整的文件名,即便以相對目錄執行腳本,返回的目錄部分也是完整的目錄:
FILEPATH="$(readlink -f $0)" |
---|
取腳本所在目錄路徑:
BASEDIR="$(dirname $(readlink -f $0))" |
---|
在終端分別執行:
「MOOON_LOG_LEVEL=debug」和「export MOOON_LOG_LEVEL=debug」 |
---|
上述二者有何不一樣了?區別在於前者只對當前進程有效,而後者(環境變量)能夠被子進程繼承,也就是對子進程也有做用。
如需直接修改文件方式替換,只需sed後帶參數「-i」。
sed 's/原字符串/替換字符串/' |
---|
sed "s/原字符串包含'/替換字符串包含'/" |
---|
sed 's?原字符串?替換字符串?' |
---|
不一樣替換間使用分號分開。
x=MM sed 's/AB/'$x'/g' filename 或 sed 's/AB/'"$x"'/g' filename sed 's/'"$val"'//' filename awk '{ print "'$x'" }' filename |
---|
假設將值存在文件t中,文件t內容以下,只有一行:
a b c |
---|
須要將a、b和c分別賦給外部變量x、y和z,則腳本可寫成以下:
eval $(awk '{ printf("x=%s\ny=%s\nz=%s",$1,$2,$3); }' ./t) echo $x echo $y echo $z |
---|
請注意printf函數中的換行符\n是必須的,起關鍵做用的是eval命令,它在不少場景有特別的用處。
~> str="abcdef" ~> strlen=${#str} ~> echo $strlen 6 |
---|
順序遍歷字符串的每個字符(「${str:$i:1}」中的數字1表示取幾個字符):
~> str="abcdef" ~> strlen=${#str} ~> echo $strlen 6 ~> for ((i=0; i<$strlen; ++i)) do echo ${str:$i:1}; done a b c d e f |
---|
使用expr,判斷expr的返回值,返回值爲0表示是數字:
str1="123abc" str2="123000" $(expr $str1 + 0 > /dev/null 2>&1) echo $? $(expr $str2 + 0 > /dev/null 2>&1) echo $? |
---|
Linux系統自帶的日誌滾動工具logrotate由兩部分組成:一是命令行工具logrotate,二是後臺服務rsyslogd。
使用rsyslogd,只需簡單的配置便可實現日誌滾動。rsyslogd的配置文件爲/etc/logrotate.conf,但通常不建議直接修改logrotate.conf,而是在目錄/etc/logrotate.d下新增文件的方式。
logrotate.conf會include全部logrotate.d目錄下的文件,語法是一致的,區別是logrotate.conf定義了默認的配置,而logrotate.d目錄下爲專有配置。
下列爲redis的配置示例:
# cat /etc/logrotate.d/redis /usr/local/redis/log/redis-6379.log /usr/local/redis/log/redis-6380.log /usr/local/redis/log/redis-6381.log { rotate 2 minsize 100M nocompress missingok create 0664 redis redis notifempty } |
---|
經常使用配置項說明:
rotate | 指定日誌文件備份數,若是值爲0表示不備份 |
---|---|
minsize | 表示日誌文件達到多大才滾動 |
nocompress | 表示是否壓縮備份的日誌文件 |
missingok | 若是日誌丟失,不報錯繼續滾動下一個日誌 |
notifempty | 日誌文件爲空時,不進行輪轉,默認值爲ifempty |
create | 指定建立新日誌文件的屬性,logrotate是以root運行的,若是目標日誌文件非root運行,則這個必定要指定好 |
lspci | grep -i ethernet |
---|
lspci -vvv lspci -vvv -t |
---|
使用示例:
不一樣發行版的Linux,重啓服務可能有些區別,這裏以CentOS爲例重啓crontab服務:
service crond restart |
---|
systemctl restart crond |
---|
其中service爲老的重啓服務方式,而systemctl是新的重啓服務方式。service是一個腳本,而systemctl是一個可執行程序。
全稱「System Activity
Reporter」,即系統活動狀況報告,最爲全面的系統性能分析工具之一,也可用來查看網絡流量。
$ vmstat procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 1 0 1397364 3553340 775800 22420964 0 0 0 41 0 0 6 10 84 0 0 |
---|
$ iostat Linux 3.10.1-1-XXX-0041 (UN) 2018年12月12日 _x86_64_ (4 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 6.13 0.01 10.00 0.02 0.00 83.84 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sdb 0.11 0.11 3.66 3818251 131342429 sda 6.06 1.54 158.24 55370852 5672335360 dm-0 0.00 0.03 0.02 1126394 833860 dm-5 0.00 0.00 0.00 45657 5116 dm-6 0.00 0.00 0.00 45657 5116 dm-1 0.00 0.00 0.00 45658 5110 dm-2 0.00 0.00 0.00 45658 5116 dm-3 0.00 0.00 0.00 46478 5216 dm-4 0.00 0.00 0.00 43486 3369 dm-7 0.00 0.00 0.00 43269 3361 |
---|
參數「-m」指定刷新頻率,單位爲秒。
查看tps(每秒I/O次數):iostat -d -m
2(單位:MB,刷新間隔2秒),iostat -d -k 2(單位:KB)
查看擴展數據:iostat -x -m 2(刷新間隔2秒)
查看設備使用率和響應時間:iostat -d -x -k 2
3(刷新間隔2秒,一共循環3次)
iostat輸出指標說明:
指標 | 說明 |
---|---|
%util | 每秒用於I/O操做的時間百分比,100%表示飽和,80%表示有20%的磁盤空間時間,標示了磁盤繁忙程度。 |
tps | 每秒I/O次數 |
await | 平均每次設備I/O操做的等待時間(單位:毫秒) |
svctm | 平均每次設備I/O操做的服務時間(單位:毫秒),值大小和磁盤性能有關。若是值和await接近,表示幾乎無I/O等待。若是await遠大於svctm,表示I/O隊列等待過長。 |
avgrq-sz | 平均每次設備I/O操做的數據大小(扇區) |
avgqu-sz | 平均I/O隊列長度,值越小越好 |
wMB/s | 每秒寫入的M字節數 |
rMB/s | 每秒讀取的M字節數 |
r/s | 每秒完成的讀I/O設備次數 |
w/s | 每秒完成的寫I/O設備次數 |
rsec/s | 每秒讀扇區數 |
wsec/s | 每秒寫扇區數 |
rrqm/s | 每秒合併的讀I/O,VFS將請求發給FS時,FS會對讀取相同塊(Block)的請求進行合併。 |
wrqm/s | 每秒合併的寫I/O |
htop爲top的增強版本。
mpstat -P ALL 1 mpstat -I SUM 1 |
---|
示例(每秒顯示一次):
mpstat -P ALL 1 |
---|
cat /proc/interrupts |
---|
grep eth1 /proc/interrupts |awk '{print $NF}' |
---|
cat /proc/irq/74/smp_affinity # 以中斷74爲例 |
---|
全稱「List Open
Files」,可用來查看進程打開了哪些文件,也可用來查看一個文件被哪些進程打開了,或者一個端口是哪一個進程打開的等。
lsof -i:port,如:lsof -i:80 |
---|
lsof abc.txt |
---|
lsof -c abc |
---|
lsof +d /usr/local/ |
---|
lsof -d 4 |
---|
lsof -u username |
---|
lsof -p 12 |
---|
lsof -i:10888 -r 2 |
---|
ls +r 死循環執行,直到沒有結果,如已沒有程序佔用端口號10888。
和lsof有些相似的功能,可查看文件、文件系統或套接字被哪些進程打開了。
用來模擬screen的detach的功能的小工具:http://dtach.sourceforge.net/。
$ dstat You did not select any stats, using -cdngy by default. ----total-cpu-usage---- -dsk/total- -net/total- ---paging-- ---system-- usr sys idl wai hiq siq| read writ| recv send| in out | int csw 4 6 89 0 0 0| 746B 118k| 0 0 | 0 18B| 850 5461 8 9 82 0 0 0| 0 92k| 111k 71k| 0 0 |6888 15k 17 39 44 0 0 0| 0 96k| 107k 62k| 0 0 |7392 19k 2 3 94 0 0 0| 0 484k| 124k 171k| 0 0 |6855 13k |
---|
# dstat -l -m -r -c --top-io --top-mem --top-cpu ---load-avg--- ------memory-usage----- --io/total- ----total-cpu-usage---- ----most-expensive---- --most-expensive- -most-expensive- 1m 5m 15m | used buff cach free| read writ|usr sys idl wai hiq siq| i/o process | memory process | cpu process 0.14 0.14 0.14|2710M 407M 6067M 117G|0.01 3.34 | 0 0 100 0 0 0|process_mon 960k 639B|redis-server 412M|report_proxy 0.0 0.13 0.14 0.14|2710M 407M 6067M 117G| 0 0 | 0 0 100 0 0 0|redis-serve 13k 9360B|redis-server 412M|report_proxy 0.1 0.13 0.14 0.14|2710M 407M 6067M 117G| 0 0 | 0 0 99 0 0 0|process_mon2027k 1986B|redis-server 412M|report_proxy 0.0 0.13 0.14 0.14|2710M 407M 6067M 117G| 0 0 | 0 0 100 0 0 0|sap1002 30k 624B|redis-server 412M|report_proxy 0.1 0.13 0.14 0.14|2710M 407M 6067M 117G| 0 9.00 | 0 0 99 0 0 0|process_mon2024k 1986B|redis-server 412M|report_proxy 0.1 0.13 0.14 0.14|2715M 407M 6067M 117G| 0 28.0 | 0 1 99 0 0 0|redis-serve 38k 4339k|redis-server 412M|report_proxy 0.1 0.68 0.25 0.18|2723M 407M 6067M 117G| 0 5.00 | 1 1 98 0 0 0|crond 13M 180k|redis-server 412M|report_proxy 0.1 |
---|
能夠交互式地運行或做爲一個守護進程或同時兩者兼備地運行,可替代ps、top、iotop和vmstat等,能夠做爲一個服務來監控遠程機或者整個服務器集羣。可以使用yum或apt-get安裝,官網:http://collectl.sourceforge.net/。
collectl #<--------CPU--------><-----------Disks-----------><-----------Network----------> #cpu sys inter ctxsw KBRead Reads KBWrit Writes netKBi pkt-in netKBo pkt-out 37 37 382 188 0 0 27144 254 45 68 3 21 25 25 366 180 20 4 31280 296 0 1 0 0 25 25 368 183 0 0 31720 275 2 20 0 1 |
---|
collectl -sjmf -oT # <-------Int--------><-----------Memory-----------><------NFS Totals------> #Time Cpu0 Cpu1 Cpu2 Cpu3 Free Buff Cach Inac Slab Map Reads Writes Meta Comm 08:36:52 1001 66 0 0 2G 201M 609M 363M 219M 106M 0 0 5 0 08:36:53 999 1657 0 0 2G 201M 1G 918M 252M 106M 0 12622 0 2 08:36:54 1001 7488 0 0 1G 201M 1G 1G 286M 106M 0 20147 0 2 |
---|
collectl -sn --verbose -oT # NETWORK SUMMARY (/sec) # KBIn PktIn SizeIn MultI CmpI ErrIn KBOut PktOut SizeO CmpO ErrOut 08:46:35 3255 41000 81 0 0 0 112015 78837 1454 0 0 08:46:36 0 9 70 0 0 0 29 25 1174 0 0 08:46:37 0 2 70 0 0 0 0 2 134 0 0 |
---|
collectl -sJ -oTm # Int Cpu0 Cpu1 Cpu2 Cpu3 Type Device(s) 08:52:32.002 225 0 4 0 0 IO-APIC-level ioc0 08:52:32.002 000 1000 0 0 0 IO-APIC-edge timer 08:52:32.002 014 0 0 18 0 IO-APIC-edge ide0 08:52:32.002 090 0 0 0 15461 IO-APIC-level eth1 |
---|
簡稱PT(Percona Toolkit),可用來監控MySQL、MongoDB等。
pt-pmp -p pid |
---|
pt-visual-explain |
---|
pt-index-usage |
---|
磁盤IOPS測試工具。MAN手冊:https://linux.die.net/man/1/fio,源代碼:http://freshmeat.sourceforge.net/projects/fio/。
fio -filename=/dev/sdb -direct=1 -iodepth 16 -thread -rw=randwrite -ioengine=libaio -bs=4k -size=2G -numjobs=1 -runtime=100 -group_reporting -name=test |
---|
fio -filename=/dev/sdb -direct=1 -iodepth 16 -thread -rw=randread -ioengine=libaio -bs=4k -size=2G -numjobs=1 -runtime=100 -group_reporting -name=test |
---|
fio -filename=/dev/sdb -direct=1 -iodepth 16 -thread -rw=write -ioengine=libaio -bs=4k -size=2G -numjobs=1 -runtime=100 -group_reporting -name=test |
---|
fio -filename=/dev/sdb -direct=1 -iodepth 16 -thread -rw=read -ioengine=libaio -bs=4k -size=2G -numjobs=1 -runtime=100 -group_reporting -name=test |
---|
主要參數說明:
參數名 | 參數說明 |
---|---|
filename | 測試文件名稱(一般選擇須要測試盤的data目錄) |
direct | 直接操做磁盤,繞過系統Buffer |
rw | 取值: |
bs | 單次I/O操做的塊大小(假如bs值爲4k,rw值爲write,表示每次4k順序寫文件) |
rwmixwrite | 在混合讀寫的模式下寫佔的百分比,如「--rwmixwrite=20」表示寫佔20% |
size | 測試的文件大小 |
numjobs | 測試線程數 |
ioengine | 使用的I/O引擎,支持如下幾種: |
group_reporting | 指標顯示結果,彙總每一個進程的信息 |
runtime | 測試時長(單位:秒) |
nrfiles | 進程生成的文件數 |
zero_buffers | 用0初始化系統Buffer |
lockmem | 限定多少內存用於測試,如:--lockmem=1g |
randwrite 測試隨機寫
randread 測試隨機讀
randrw 測試隨機讀寫
write 測試順序寫
read 測試順序讀
sync(基於read、write、fseek)
psync(基於pread、pwrite)
vsync(基於readv、writev)
libaio(Linux內核異步I/O)
posixaio(基於Posix標準的異步I/O:aoi_read、aoi_write)
solarisaio(基於Solaris原生異步I/O)
windowsaio(基於Windows原生異步I/O)
mmap(基於mmap、memcpy)
下載地址:https://github.com/akopytov/sysbench/releases。
一個開源的、模塊化的、跨平臺的多線程性能測試工具,能夠用來進行CPU、內存、磁盤I/O、線程、數據庫的性能測試。目前支持的數據庫有MySQL、Oracle和PostgreSQL。
示例:測試fsync是否爲實時fsync:
sysbench --test=fileio --file-fsync-freq=1 --file-num=1 --file-total-size=16384 --file-test-mode=rndwr prepare sysbench --test=fileio --file-fsync-freq=1 --file-num=1 --file-total-size=16384 --file-test-mode=rndwr run |
---|
運行時,若是遇到警告「Did you forget to run the prepare
step」,則表示須要先執行「prepare」。
Python腳本測試:
#!/usr/bin/python # time python fsync.py import os, sys, mmap # Open a file fd = os.open( "testfile", os.O_RDWR|os.O_CREAT|os.O_DIRECT ) m = mmap.mmap(-1, 512) for i in range (1,1000): os.lseek(fd,os.SEEK_SET,0) m[1] = "1" os.write(fd, m) os.fsync(fd) # Close opened file os.close( fd ) |
---|
示例:列出全部分區
# sfdisk -l |
---|
示例:列出全部分區
# fdisk -l |
---|
具備互動式操做界面的磁盤分區工具,參數-P表示顯示分區表的內容,附加參數「s」會依照磁區的順序顯示相關信息。
一個由GNU開發的功能強大的磁盤分區和分區大小調整工具。
parted的圖形化版本。
dmesg |grep SCSI
lsscsi
dmesg |grep -i raid
查看軟RAID:cat /proc/mdstat
測試磁盤緩存讀性能使用示例:hdparm -t /dev/sda(或)hdparm -Tt /dev/sda。
文件/etc/fstab的內容和mount輸出是一致的。
掛載一塊磁盤以前,須要先建立好文件系統。
根據進程ID,查看指定進程的當前工做目錄(注意不是程序文件所在目錄),格式:pwdx
pid,如pwdx 1。
根據進程名,查看進程的ID,格式:pidof 進程名,如:pidof init。
nice是進程的CPU優先級查看和調整工具,ionice是進程的IO優先級查看和調整工具。
根據進程ID,查看指定進程調用棧的工具,格式:pstack pid。
objdump
nm 常常用來查看共享庫是否包含了某個符號
ldd 查看依賴關係工具
strings 列出符號
strip 刪除符號表工具
Readelf
「ps」爲「Process
Snapshot」的縮寫,使用頻繁的用來查看當前進程的快照工具,數據來源於虛擬文件「/proc」,若是輸出結果的用戶名太長,則會用數字型的用戶ID替代。
ps支持三種風格的命令行參數:
UNIX 必須以「-」打頭,能夠分組
BSD 不能以「-」打頭,也能夠分組
GNU 以兩個「-」打頭\
三種風格能夠混合使用,但可能有衝突,三種風格有些名稱相同但含義不一樣。以查看系統中全部進程爲例:
標準語法:ps -ef或ps -eF等
BSD語法:ps aux或ps ax
查看進程樹:
標準語法:ps -ejH
BSD語法:ps axjf
查看線程:
標準語法:ps -eLf
BSD語法:ps axms
查看root運行的全部進程:ps -U root -u root u。以指定格式查看:
ps -eo pid,tid,class,rtprio,ni,pri,psr,pcpu,stat,wchan:14,comm
ps axo stat,euid,ruid,tty,tpgid,sess,pgrp,ppid,pid,pcpu,comm
ps -Ao pid,tt,user,fname,tmout,f,wchan
只顯示進程ID爲42的進程名:ps -q 42 -o comm=。只syslogd的進程ID:ps -C syslogd -o
pid=。
「ps -ef」和「ps
-Af」相同,緣由是「-e」和「-A」做用相同。若是不想顯示標題頭,指定「--no-heading」便可。
ps -Ao pcpu,comm,pid,user,uid,tty --sort=-pcpu | head -n 6
說明:
-A 表示顯示全部進程
pcpu CPU使用率真
comm 進程名(不包含路徑)
pid 進程ID
user 用戶名
--sort 指定按什麼排序
顯示CPU使用率最低的前5個進程:
ps -Ao pcpu,comm,pid,user,uid,tty --sort=pcpu | head -n 6
注意,這裏是「-pcpu」,不是「pcpu」,前者按高到低排,後者從低到高排,順序恰好相反。「pcpu」可用「%cpu」替代,效果徹底相同。
若是按物理內存排序,用「rss」替代「pcpu」,按虛擬內存排,用「vsz」替代「pcpu」便可。
ps -Ao rss,pcpu,comm,pid,user,uid,tty --sort=-rss| head -n 6
ps -Ao rss,pcpu,comm,pid,user,uid,tty --sort=rss| head -n 6
開源的內存分析和性能分析工具。qcachegrind是一個valgrind輔助工具,可視化方式查看valgrind性能分析結果。
Linux自帶的功能強大的性能分析工具,可結合火焰圖。使用方式,如:perf top -p
pid。自帶了生成SVG格式的圖形化工具timechart。
ss是一個能夠替代netstat的網絡鏈接查看工具(socket statistics)。
示例1:查看TCP監聽
netstat -lpnt |
---|
示例1:查看TCP鏈接
netstat -lpna |
---|
ip是一個能夠替代ifconfig和route等的網絡管理工具,爲iproute2套件中的一員,而ifconfig是net-tools中已被廢棄使用的一個命令,許多年前就已經沒有維護了。
ip addr add 192.168.31.13/24 dev eth1 |
---|
ip addr show eth1 |
---|
ip addr del 192.168.31.13/24 dev eth1 |
---|
ip route show |
---|
參數「-s」指定顯示多少字節的包內容。
tcpdump -i eth1 -n -vv -x -e -s 600 # 僅二進制 tcpdump -i eth1 -n -vv -X -e -s 600 # 二進制和文本 |
---|
tcpdump -i eth1 -n -vv -X -e -s 600 -w x.cap |
---|
tcpdump -i eth1 host 192.168.31.1 and port 80 |
---|
tcpdump -i eth1 dst host 192.168.31.1 and dst port 80 |
---|
tcpdump -i eth1 |
---|
tcpdump udp port 10888 |
---|
tcpdump tcp port 80 |
---|
tcpdump host A and \(B or C \) # tcpdump host 127.0.0.1 and \(127.0.0.1 or 110.240.110.18 \) |
---|
tcpdump ip A and not B |
---|
tcpdump -i eth1 src host A |
---|
tcpdump -i eth1 dst host B |
---|
tcpdump tcp port 80 and host A |
---|
tcpdump -D |
---|
tcpdump -i any |
---|
tcpdump -v |
---|
更詳細可使用「tcpdump -vv」和「tcpdump -vvv」。
tcpdump -v -X |
---|
tcpdump -v -XX |
---|
tcpdump -c 100 |
---|
tcpdump -w filename.log |
---|
tcpdump -n |
---|
tcpdump -s 500 |
---|
若是要捕獲全部字節則爲:tcpdump -s 0。
tcpdump -n "broadcast or multicast" |
---|
tcpdump -v "icmp or arp" |
---|
tcpdump -v arp |
---|
tcpdump -n "dst host 192.168.0.1 and (dst port 80 or dst port 443)" |
---|
tcpdump -n udp dst portrange 1-1023 |
---|
tcpdump dst port 23 |
---|
tcpdump -n dst net 192.168.1.0/24 |
---|
tcpdump -n src net 192.168.1.0/24 |
---|
$ ifstat #kernel Interface RX Pkts/Rate TX Pkts/Rate RX Data/Rate TX Data/Rate RX Errs/Drop TX Errs/Drop RX Over/Rate TX Coll/Rate lo 8546 0 8546 0 11845K 0 11845K 0 0 0 0 0 0 0 0 0 eth1 93020 0 41717 0 8867K 0 5969K 0 0 0 0 0 0 0 0 0 |
---|
按對端IP查看網絡流量。
按進程查看網絡流量:https://github.com/raboof/nethogs/releases。
全稱「Socket CAT」,爲netcat的增強版。
集成了traceroute和ping。
ethtool -S eth1 |
---|
ethtool -g eth1 |
---|
sar -n DEV 1 # 流量信息 sar -n EDEV 1 # 錯誤信息 sar -u 2 5 # 每2秒報告CPU使用率,共顯示5行(次) sar -I 14 -o int14.file 2 10 每2秒報告14號中斷,共顯示10行(次),結果寫入文件int14.file sar -f /var/log/sa/sa16 顯示內存和網絡統計,結果寫入文件/var/log/sa/sa16 sar -A 顯示全部統計 |
---|
可以使用tcpcopy工具將線上環境的流量引入到測試環境中,以將機器10.24.110.21的5000端口流量引流到機器10.23.25.11的5000端口爲例:
tcpcopy -x 4077-10.23.25.11:5000 -s 10.23.25.12 -c 192.168.100.x -n 1 |
---|
route add -net 192.168.100.0 netmask 255.255.255.0 gw 10.23.25.12 |
---|
intercept -i eth1 -F tcp and src port 5000 |
---|
由於TCP鏈接是有回包的,因此須要輔助機器幫助接收回包,通常是直接丟棄掉。
有關/proc的內容很龐大,系統監控須要從這裏讀取大量數據,這裏逐步記錄一些經常使用到的。
內存大小和使用信息。
CPU個數和頻率等CPU信息。
進程的各類信息,其中PID爲進程ID,假設進程ID爲2019,則路徑爲「/proc/2019」。一個進程所建立和打開的文件描述符,全在/proc/PID/fd下,以Linux的init進程爲例:
# ls /proc/1/fd 0 1 10 11 12 13 14 15 16 17 2 20 21 22 24 25 26 27 28 29 3 30 31 32 33 34 37 38 39 4 5 6 7 8 9 |
---|
包括進程的命令行參數等都可以這個目錄下獲得。
該目錄下存放的是以IRQ號命名的目錄,如/proc/irq/40/表示中斷號爲40的相關信息。
該文件存放的是CPU位掩碼(十六進制),修改該文件中的值能夠改變CPU和某中斷的親和性。
該文件存放的是CPU列表(十進制),注意CPU核心個數用表示編號從0開始,如cpu0和cpu1等。
網絡相關的:
可用來統計網卡流量。
文件系統相關:
/proc/sys/fs/file-max
/proc/sys/fs/file-nr
/proc/sys/fs/inode-nr
網絡相關:
/proc/sys/net/core/somaxconn 控制TCP監聽隊列大小
/proc/sys/net/ipv4/tcp_fin_timeout 控制FIN_WAIT_2狀態的超時時長
/proc/sys/net/ipv4/tcp_keepalive_intvl
內存相關:
/proc/sys/vm/drop_caches
/proc/sys/vm/overcommit_memory
咱們知道變量是會被子進程繼承的,能夠直接使用。有些狀況下可能須要繼承函數,以方便透明使用,方法很是簡單,使用「export
-f」,注意參數「-f」,它表示函數的意思,不帶參數的export只針對變量。
function ifprop() { echo ":$1=$2" } export -f ifprop |
---|
也可使用「typeset -fx」替代「export -f」。
基本上各發行版本均在/etc目錄下有個後綴爲「-release」的文件,該文件即存儲了發行版本的版本號信息,如:
cat /etc/SuSE-release |
---|
cat /etc/slackware-version |
---|
cat /etc/redhat-release |
---|
netstat -ie|awk /broadcast/'{print $2}' netstat -ie|awk -F '[ :]+' /cast/'{print $4}' netstat -ie|awk -F '[ :]+' /cast/'{print $3}' |
---|
echo 3 > /proc/sys/vm/drop_caches |
---|
測試請參見:http://blog.chinaunix.net/uid-20682147-id-4209165.html。
cat /proc/net/tcp |
---|
cat /proc/net/udp |
---|
cat /proc/sys/net/core/rmem_default |
---|
cat /proc/sys/net/core/rmem_max |
---|
ps -mp 20693 -o THREAD,tid,time | sort -rn |
---|
這是一個python腳本工具,使用方法如:iotop -o |
---|
使用dmesg以前,須要先開啓內核的IO監控:
echo 1 >/proc/sys/vm/block_dump或sysctl vm.block_dump=1 |
---|
而後可使用以下命令查看IO最重的前10個進程:
dmesg |awk -F: '{print $1}'|sort|uniq -c|sort -rn|head -n 10 |
---|
# iostat -x 1 3 avg-cpu: %user %nice %system %iowait %steal %idle 1.06 0.00 0.99 1.09 0.00 97.85 Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util sda 0.49 17.29 1.74 6.75 23.47 200.18 11.73 100.09 26.33 0.10 12.25 5.73 4.87 |
---|
找「await」值最大的設備(Device),如上的結果即爲sda。而後使用mount找到sda掛載點,再使用fuser命令查看哪些進程在訪問,如:
# fuser -vm /data |
---|
iptables命令操做只對當前登陸有效,若是需重啓後也有效,可將操做放到/etc/rc.d/boot.local中,如:
/sbin/iptables -F /sbin/iptables -A INPUT -i eth0 -p tcp --sport 80 -j ACCEPT /sbin/iptables -A INPUT -i eth0 -p tcp -j DROP /sbin/iptables -A INPUT -i eth0 -p udp -j DROP |
---|
iptables是一個鏈的方式從前日後判斷,若是前面的規則成立就不會日後繼續,因此要注意順序,每行對應一條規則。
參數「-A」是Append意思,也就是追加;參數「-I」是Insert意思,也就是插入;參數「-F」是Flush意思,表示清除(即刪除)掉已有規則,也就是清空。
查看已有的規則,執行命令:
iptables -L -n |
---|
帶行號顯示結果(DEL操做須要指定行號):
# iptables -L -n --line-number Chain INPUT (policy ACCEPT) num target prot opt source destination 1 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp spt:443 2 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp spt:443 3 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp spt:443 4 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp dpt:80 5 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp spt:443 6 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp dpt:8000 7 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp spt:443 8 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp spt:80 9 DROP tcp -- 0.0.0.0/0 0.0.0.0/0 10 DROP udp -- 0.0.0.0/0 0.0.0.0/0 Chain FORWARD (policy ACCEPT) num target prot opt source destination Chain OUTPUT (policy ACCEPT) num target prot opt source destination |
---|
從上能夠看到,iptables有三種規則鏈(Chain):
INPUT 用於指定輸入規則,好比外部是能夠訪問本機的80端口;
OUTPUT 用於指定輸出規則,好比本機是否能夠訪問外部的80端口;
FORWARD
用於指定端口轉發規則(至關於rinetd功能),好比將8080端口的數據轉到到80端口。
參數「-I」和參數「-A」須要指定鏈(Chain)名,其中「-I」的鏈名後還須要指定第幾條(行)規則。
可經過「-D」參數刪除規則,有兩種刪除方式,一是匹配模式,二是指定第幾條(行)。也能夠經過「-R」參數修改已有規則,另外「-L」參數後也能夠跟鏈(Chain)名,表示只列出指定鏈的全部規則。「-j」參數後跟的是動做,即知足規則時執行的操做,能夠爲ACCEPT、DROP、REJECT和REDIRECT等。
在iptables的INPUT鏈的第一行插入一條規則(可訪問其它機器的80端口):
iptables -I INPUT 1 -p tcp --sport 80 -j ACCEPT |
---|
在iptables的INPUT鏈尾追加一條規則(可訪問其它機器的80端口):
iptables -A INPUT -p tcp --sport 80 -j ACCEPT |
---|
若是要讓其它機器能夠訪問本機的80端口,則爲:
iptables -A INPUT -p tcp --dport 80 -j ACCEPT |
---|
插入前:
# iptables -L -n Chain INPUT (policy ACCEPT) target prot opt source destination DROP tcp -- 0.0.0.0/0 0.0.0.0/0 DROP udp -- 0.0.0.0/0 0.0.0.0/0 |
---|
插入:
# iptables -I INPUT 1 -p tcp --sport 80 -j ACCEPT |
---|
插入後:
# iptables -L -n Chain INPUT (policy ACCEPT) target prot opt source destination ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp spt:80 DROP tcp -- 0.0.0.0/0 0.0.0.0/0 DROP udp -- 0.0.0.0/0 0.0.0.0/0 |
---|
追加前:
# iptables -L -n Chain INPUT (policy ACCEPT) target prot opt source destination DROP tcp -- 0.0.0.0/0 0.0.0.0/0 DROP udp -- 0.0.0.0/0 0.0.0.0/0 |
---|
追加:
# iptables -I INPUT 1 -p tcp --sport 80 -j ACCEPT |
---|
追加後(ACCEPT將不能生效):
# iptables -L -n Chain INPUT (policy ACCEPT) target prot opt source destination DROP tcp -- 0.0.0.0/0 0.0.0.0/0 DROP udp -- 0.0.0.0/0 0.0.0.0/0 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp spt:80 |
---|
刪除INPUT的第3條(即第3行,執行「iptables -L INPUT
--line-numbers」顯示行號)規則:
iptables -D INPUT 3 |
---|
配置DNS客戶端的方法很是簡單,須要修改兩個文件:
在這個文件裏增長DNS服務器的IP地址,格式爲:nameserver DNS服務器IP地址
如:
nameserver 192.168.1.46 |
---|
能夠有多行nameserver,如:
nameserver 192.168.1.46 nameserver 219.133.38.2 nameserver 219.133.38.3 |
---|
在這個文件中增長以下內容便可:
hosts: files dns networks: files dns |
---|
如今便可ping域名了,如:ping
www.hadoopor.com。固然在ping以前要保證該機器是能夠正常鏈接到DNS服務器的,DNS服務器的默認端口號爲53,能夠經過telnet命令來測試是否可以鏈接到DNS服務器,如:telnet
192.168.1.46 53。
有兩種方式在crontab中定義變量:
A=123 * * * * * echo $A > /tmp/a.txt |
---|
注意在定義變量時不能使用$引用其它變量,以下面的作法錯誤:
A=123 B=$A |
---|
此文件定義變量的格式爲:
NAME=VALUE |
---|
同crontab,也不能使用$引用其它變量。操做系統在登陸時使用的第一個文件是/etc/environment文件,/etc/environment文件包含指定全部進程的基本環境的變量。
千萬注意,不要有「PATH=$PATH:/usr/local/jdk/bin」這樣的用法,這將致使系統沒法啓動。
小技巧:想保持多臺機器的crontab一致,但變量值不徹底相同,這個時候能夠考慮將變量配置在/etc/environment中,這樣crontab就能夠相同了。
如機器1:
A=123 |
---|
機器2:
A=456 |
---|
二者的crontab配置:
* * * * * echo "$A" > /x.txt |
---|
通常不建議直接修改/etc/environment,而可採起在目錄/etc/profile.d下新增一個.sh文件方式替代。但若是想crontab中生效,則只能修改/etc/environment,經測試/etc/profile.d方式不起做用。
另外注意在/etc/environment設置的變量,在shell中並不生效,但對crontab有效。
在安裝一些系統時,須要修改hostname,好比安裝Hadoop時須要修改主機名,並且主機名不能包含下劃線。
實際上,主機名分三種(命令hostnamectl或hostnamectl
status可查看三種主機名):
「pretty」主機名,UTF8格式的主機名,這個僅供閱讀,長度無限制;
「static」主機名,平常所稱的主機名(traditional
hostname)。最多爲64個字符,僅可包含「.」、「_」、「-」、「a-z」、「A-Z」和「0-9」這些字符,而且不能以「.」打頭和結尾,也不能兩個「.」連續;
「transient」主機名,內核維護的動態主機名,初始化爲「static」主機名,默認爲localhost。也爲hadoop要求的主機名,它的約束規則同「static」主機名。若是存在「static」主機名,且不是「localhost」,那麼將忽略「transient」主機名。「transient」主機名可被DHCP和mDNS修改。
當三種主機名相同時,「hostnamectl
status」只會顯示「static」主機名,三種主機名的設置方法:
hostnamectl --pretty set-hostname NAME hostnamectl --static set-hostname NAME hostnamectl --transient set-hostname NAME |
---|
hostnamectl修改的主機名,在系統重啓以前會一直有效,而hostname只對當次有效。若是不指定參數,則一次設置三種主機名:
hostnamectl set-hostname NAME |
---|
命令hostname不但能夠查看主機名,還能夠用它來修改主機名,格式爲:hostname
新主機名。
在修改以前9.4.149.11對應的主機名爲hadoop_10202,而9.4.149.6對應的主機名爲hadoop_10203。二者的主機名均帶有下劃線,所以須要修改。爲求簡單,僅將原下劃線去掉:
hostname hadoop10202
hostname hadoop10203
通過上述修改後,相似於修改環境變量,只臨時有效,還須要修改相應的系統配置文件,以永久有效。
不一樣的Linux發行版本,對應的系統配置文件可能不一樣,SuSE 10.1是/etc/HOSTNAME:
# cat /etc/HOSTNAME hadoop_10202 |
---|
將文件中的「hadoop_10202」,改爲「hadoop10202」。有些Linux發行版本對應的多是/etc/hostname文件,有些如CentOS和RedHat同時有/etc/hostname和/etc/sysconfig/network兩個文件,修改/etc/hostname便可。
需注意:/etc/sysconfig/network的格式和/etc/hostname、/etc/HOSTNAME不一樣,爲:
HOSTNAME=主機名 |
---|
修改以後,須要重啓網卡,以使修改生效,執行命令:/etc/rc.d/boot.localnet
start(不一樣系統命令會有差別,這是SuSE上的方法,其它一些可能爲:/etc/init.d/network
restart或service network
restart等),再次使用hostname查看,會發現主機名變了。
上述方法若是不能永久有效,則可以使用hostnamectl修改來修改永久有效。若是仍是不行,則可重啓系統以使永久有效。
能夠經過如下多種方法查看主機名:
hostname命令(也能夠用來修改主機名,但當次僅當次會話有效)
hostnamectl命令(也能夠用來修改主機名,系統重啓前一直有效)
cat /proc/sys/kernel/hostname
cat /etc/hostname或cat /etc/sysconfig/network(永久性的修改,須要重啓)
sysctl kernel.hostname(也能夠用來修改主機名,但僅重啓以前有效)
批量修改/etc/hostname工具(其它可參照):
https://github.com/eyjian/libmooon/blob/master/shell/set_hostname.sh |
---|
方法 | 效果 |
---|---|
hostname | 當次登陸臨時有效,新登陸或從新登陸後無效 |
hostnamectl | 系統重啓以前一直有效,重啓後無效 |
/etc/hostname | 只有在系統重啓後纔有效 |
使用process_monitor.sh監控進程,當進程掛掉後,可以在兩三秒內將進程重拉起,而且支持同一程序以不一樣參數啓動多個實例,和不一樣用戶以相同參數啓動多個實例。
下載:https://github.com/eyjian/libmooon/blob/master/shell/process_monitor.sh。
通常建議將process_monitor.sh放在/usr/local/bin目錄下,並設置好可執行權限,放在crontab中運行。
* * * * * /usr/local/bin/process_monitor.sh "/data/redis/bin/redis-server 6379" "/data/redis/bin/redis-server /data/redis/conf/redis-6379.conf" * * * * * /usr/local/bin/process_monitor.sh "/data/redis/bin/redis-server 6380" "/data/redis/bin/redis-server /data/redis/conf/redis-6380.conf" |
---|
* * * * * /usr/local/bin/process_monitor.sh "/usr/local/jdk/bin/java -Dzookeeper" "/data/zookeeper/bin/zkServer.sh start" |
---|
process_monitor.sh啓動後,會在/tmp目錄下建立以「/process_monitor-」打頭的日誌文件,假設root用戶運行process_monitor.sh,則日誌全路徑爲:/tmp/process_monitor-root.log。
遠程批量工具包含:
批量命令工具mooon_ssh;
批量上傳文件工具mooon_upload;
批量下載文件工具mooon_download。
可執行二進制包下載地址:
https://github.com/eyjian/libmooon/releases
源代碼包下載地址:
https://github.com/eyjian/libmooon/archive/master.zip
批量工具除由三個工具組成外,還分兩個版本:
C++版本
GO版本
當前C++版本比較成熟,GO版本至關簡略,但C++版本依賴C++運行時庫,不一樣環境須要特定編譯,而GO版本可不依賴C和C++運行時庫,因此不需編譯便可應用到普遍的Linux環境。
使用簡單,直接執行命令,即會提示用法,如C++版本:
$ mooon_ssh parameter[-c]'s value not set usage: -h[]: Connect to the remote machines on the given hosts separated by comma, can be replaced by environment variable 'H', example: -h='192.168.1.10,192.168.1.11' -P[36000/10,65535]: Specifies the port to connect to on the remote machines, can be replaced by environment variable 'PORT' -u[]: Specifies the user to log in as on the remote machines, can be replaced by environment variable 'U' -p[]: The password to use when connecting to the remote machines, can be replaced by environment variable 'P' -t[60/1,65535]: The number of seconds before connection timeout -c[]: The command is executed on the remote machines, example: -c='grep ERROR /tmp/*.log' -v[1/0,2]: Verbosity, how much troubleshooting info to print |
---|
參數名 | 默認值 | 說明 |
---|---|---|
-u | 無 | 用戶名參數,可用環境變量U替代 |
-p | 無 | 密碼參數,可用環境變量P替代 |
-h | 無 | IP列表參數,可用環境變量H替代 |
-P | 22,可修改源碼,編譯爲經常使用端口號 | SSH端口參數,可用環境變量PORT替代 |
-c | 無 | 在遠程機器上執行的命令,建議單引號方式指定值,除非要執行的命令自己已經包含了單引號有衝突。使用雙引號時,要注意轉義,不然會被本地shell解釋 |
-v | 1 | 工具輸出的詳細度 |
-thr | 1 | 線程數,當線程數大於2時,併發執行;若是值爲0,表示線程數和IP數相同 |
參數名 | 默認值 | 說明 |
---|---|---|
-u | 無 | 用戶名參數,可用環境變量U替代 |
-p | 無 | 密碼參數,可用環境變量P替代 |
-h | 無 | IP列表參數,可用環境變量H替代 |
-P | 22,可修改源碼,編譯爲經常使用端口號 | SSH端口參數,可用環境變量PORT替代 |
-s | 無 | 以逗號分隔的,須要上傳的本地文件列表,能夠帶相對或絕對目錄 |
-d | 無 | 文件上傳到遠程機器的目錄,只能爲單個目錄 |
-thr | 1 | 線程數,當線程數大於2時,併發執行;若是值爲0,表示線程數和IP數相同 |
mooon_upload -s=/etc/hosts -d=/etc |
---|
mooon_ssh -c='md5sum /etc/hosts' |
---|
mooon_ssh -c='crontab -l' |
---|
mooon_ssh -c='rm -f /tmp/crontab.empty;touch /tmp/crontab.empty' mooon_ssh -c='crontab /tmp/crontab.emtpy' |
---|
mooon_ssh -c='crontab /tmp/crontab.online' |
---|
由於awk用單引號,因此參數「-c」的值不能使用單引號,因此內容須要轉義,相對其它來講要複雜點:
mooon_ssh -c="netstat -ie | awk -F[\\ :]+ 'BEGIN{ok=0;}{if (match(\$0, \"eth1\")) ok=1; if ((1==ok) && match(\$0,\"inet\")) { ok=0; if (7==NF) printf(\"%s\\n\",\$3); else printf(\"%s\\n\",\$4);} }'" |
---|
不一樣的環境,IP在「netstat
-ie」輸出中的位置稍有不一樣,因此awk中加了「7==NF」判斷,但仍不必定適用於全部的環境。須要轉義的字符包含:雙引號、美圓符和斜槓。
$ export H=192.168.31.9,192.168.31.10,192.168.31.11,192.168.31.12,192.168.31.13 $ export U=kafka $ export P='123456' $ mooon_ssh -c='/usr/local/jdk/bin/jps -m' [192.168.31.15] 50928 Kafka /data/kafka/config/server.properties 125735 Jps -m [192.168.31.15] SUCCESS [192.168.31.16] 147842 Jps -m 174902 Kafka /data/kafka/config/server.properties [192.168.31.16] SUCCESS [192.168.31.17] 51409 Kafka /data/kafka/config/server.properties 178771 Jps -m [192.168.31.17] SUCCESS [192.168.31.18] 73568 Jps -m 62314 Kafka /data/kafka/config/server.properties [192.168.31.18] SUCCESS [192.168.31.19] 123908 Jps -m 182845 Kafka /data/kafka/config/server.properties [192.168.31.19] SUCCESS ================================ [192.168.31.15 SUCCESS] 0 seconds [192.168.31.16 SUCCESS] 0 seconds [192.168.31.17 SUCCESS] 0 seconds [192.168.31.18 SUCCESS] 0 seconds [192.168.31.19 SUCCESS] 0 seconds SUCCESS: 5, FAILURE: 0 |
---|
$ mooon_ssh -c='/data/kafka/bin/kafka-server-stop.sh' -u=kafka -p='123456' -h=192.168.31.15,192.168.31.16,192.168.31.17,192.168.31.18,192.168.31.19 [192.168.31.15] No kafka server to stop command return 1 [192.168.31.16] No kafka server to stop command return 1 [192.168.31.17] No kafka server to stop command return 1 [192.168.31.18] No kafka server to stop command return 1 [192.168.31.19] No kafka server to stop command return 1 ================================ [192.168.31.15 FAILURE] 0 seconds [192.168.31.16 FAILURE] 0 seconds [192.168.31.17 FAILURE] 0 seconds [192.168.31.18 FAILURE] 0 seconds [192.168.31.19 FAILURE] 0 seconds SUCCESS: 0, FAILURE: 5 |
---|