一. AWK 說明 mysql
awk是一種編程語言,用於在linux/unix下對文本和數據進行處理。數據能夠來自標準輸入、一個或多個文件,或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等先進功能,是linux/unix下的一個強大編程工具。它在命令行中使用,但更可能是做爲腳原本使用。 linux
awk的處理文本和數據的方式:它逐行掃描文件,從第一行到最後一行,尋找匹配的特定模式的行,並在這些行上進行你想要的操做。若是沒有指定處理動做,則把匹配的行顯示到標準輸出(屏幕),若是沒有指定模式,則全部被操做所指定的行都被處理。 正則表達式
awk分別表明其做者姓氏的第一個字母。由於它的做者是三我的,分別是Alfred Aho、Brian Kernighan、Peter Weinberger。 sql
gawk是awk的GNU版本,它提供了Bell實驗室和GNU的一些擴展。下面介紹的awk是以GUN的gawk爲例的,在linux系統中已把awk連接到gawk,因此下面所有以awk進行介紹。 express
二. awk命令格式和選項 編程
2.1. awk的語法有兩種形式 數組
awk [options] 'script' var=value file(s) 編程語言
awk [options] -f scriptfile var=value file(s) 函數
2.2. 命令選項 工具
(1)-F fs or --field-separator fs :指定輸入文件折分隔符,fs是一個字符串或者是一個正則表達式,如-F:。
(2)-v var=value or --asign var=value :賦值一個用戶定義變量。
(3)-f scripfile or --file scriptfile :從腳本文件中讀取awk命令。
(4)-mf nnn and -mr nnn :對nnn值設置內在限制,-mf選項限制分配給nnn的最大塊數目;-mr選項限制記錄的最大數目。這兩個功能是Bell實驗室版awk的擴展功能,在標準awk中不適用。
(5)-W compact or --compat, -W traditional or --traditional :在兼容模式下運行awk。因此gawk的行爲和標準的awk徹底同樣,全部的awk擴展都被忽略。
(6)-W copyleft or --copyleft, -W copyright or --copyright :打印簡短的版權信息。
(7)-W help or --help, -W usage or --usage :打印所有awk選項和每一個選項的簡短說明。
(8)-W lint or --lint :打印不能向傳統unix平臺移植的結構的警告。
(9)-W lint-old or --lint-old :打印關於不能向傳統unix平臺移植的結構的警告。
(10)-W posix :打開兼容模式。但有如下限制,不識別:/x、函數關鍵字、func、換碼序列以及當fs是一個空格時,將新行做爲一個域分隔符;操做符**和**=不能代替^和^=;fflush無效。
(11)-W re-interval or --re-inerval :容許間隔正則表達式的使用,參考(grep中的Posix字符類),如括號表達式[[:alpha:]]。
(12)-W source program-text or --source program-text :使用program-text做爲源代碼,可與-f命令混用。
(13)-W version or --version :打印bug報告信息的版本。
三. 模式和操做
awk腳本是由模式和操做組成的:
pattern {action} 如$ awk '/root/' test,或$ awk '$3 < 100' test。
二者是可選的,若是沒有模式,則action應用到所有記錄,若是沒有action,則輸出匹配所有記錄。默認狀況下,每個輸入行都是一條記錄,但用戶可經過RS變量指定不一樣的分隔符進行分隔。
3.1. 模式
模式能夠是如下任意一個:
(1)正則表達式:使用通配符的擴展集。
(2)關係表達式:能夠用下面運算符表中的關係運算符進行操做,能夠是字符(3)串或數字的比較,如$2>%1選擇第二個字段比第一個字段長的行。
(4)模式匹配表達式:用運算符~(匹配)和~!(不匹配)。
(5)模式,模式:指定一個行的範圍。該語法不能包括BEGIN和END模式。
(6)BEGIN:讓用戶指定在第一條輸入記錄被處理以前所發生的動做,一般可在這裏設置全局變量。
(7)END:讓用戶在最後一條輸入記錄被讀取以後發生的動做。
3.2. 操做
操做由一人或多個命令、函數、表達式組成,之間由換行符或分號隔開,並位於大括號內。主要有四部份:
(1)變量或數組賦值
(2)輸出命令
(3)內置函數
(4)控制流命令
四. awk的環境變量
變量 |
描述 |
$n |
當前記錄的第n個字段,字段間由FS分隔。 |
$0 |
完整的輸入記錄。 |
ARGC |
命令行參數的數目。 |
ARGIND |
命令行中當前文件的位置(從0開始算)。 |
ARGV |
包含命令行參數的數組。 |
CONVFMT |
數字轉換格式(默認值爲%.6g) |
ENVIRON |
環境變量關聯數組。 |
ERRNO |
最後一個系統錯誤的描述。 |
FIELDWIDTHS |
字段寬度列表(用空格鍵分隔)。 |
FILENAME |
當前文件名。 |
FNR |
同NR,但相對於當前文件。 |
FS |
字段分隔符(默認是任何空格)。 |
IGNORECASE |
若是爲真,則進行忽略大小寫的匹配。 |
NF |
當前記錄中的字段數。 |
NR |
當前記錄數。 |
OFMT |
數字的輸出格式(默認值是%.6g)。 |
OFS |
輸出字段分隔符(默認值是一個空格)。 |
ORS |
輸出記錄分隔符(默認值是一個換行符)。 |
RLENGTH |
由match函數所匹配的字符串的長度。 |
RS |
記錄分隔符(默認是一個換行符)。 |
RSTART |
由match函數所匹配的字符串的第一個位置。 |
SUBSEP |
數組下標分隔符(默認值是/034)。 |
五. awk運算符
運算符 |
描述 |
= += -= *= /= %= ^= **= |
賦值 |
?: |
C條件表達式 |
|| |
邏輯或 |
&& |
邏輯與 |
~ ~! |
匹配正則表達式和不匹配正則表達式 |
< <= > >= != == |
關係運算符 |
空格 |
鏈接 |
+ - |
加,減 |
* / & |
乘,除與求餘 |
+ - ! |
一元加,減和邏輯非 |
^ *** |
求冪 |
++ -- |
增長或減小,做爲前綴或後綴 |
$ |
字段引用 |
in |
數組成員 |
六. 記錄和域
6.1. 記錄
awk把每個以換行符結束的行稱爲一個記錄。
記錄分隔符:默認的輸入和輸出的分隔符都是回車,保存在內建變量ORS和RS中。
$0變量:它指的是整條記錄。如$ awk '{print $0}' test將輸出test文件中的全部記錄。
變量NR:一個計數器,每處理完一條記錄,NR的值就增長1。
如$ awk '{print NR,$0}' test將輸出test文件中全部記錄,並在記錄前顯示記錄號。
6.2. 域
記錄中每一個單詞稱作「域」,默認狀況下以空格或tab分隔。awk可跟蹤域的個數,並在內建變量NF中保存該值。如$ awk '{print $1,$3}' test將打印test文件中第一和第三個以空格分開的列(域)。
6.3. 域分隔符
內建變量FS保存輸入域分隔符的值,默認是空格或tab。咱們能夠經過-F命令行選項修改FS的值。如$ awk -F: '{print $1,$5}' test將打印以冒號爲分隔符的第一,第五列的內容。
能夠同時使用多個域分隔符,這時應該把分隔符寫成放到方括號中,如$awk -F'[:/t]' '{print $1,$3}' test,表示以空格、冒號和tab做爲分隔符。
輸出域的分隔符默認是一個空格,保存在OFS中。如$ awk -F: '{print $1,$5}' test,$1和$5間的逗號就是OFS的值。
七. gawk專用正則表達式元字符
如下幾個是gawk專用的,不適合unix版本的awk。
(1)/Y :匹配一個單詞開頭或者末尾的空字符串。
(2)/B:匹配單詞內的空字符串。
(3)/<:匹配一個單詞的開頭的空字符串,錨定開始。
(4)/> :匹配一個單詞的末尾的空字符串,錨定末尾。
(5)/w :匹配一個字母數字組成的單詞。
(6)/W :匹配一個非字母數字組成的單詞。
(7)/‘:匹配字符串開頭的一個空字符串。
(8)/' :匹配字符串末尾的一個空字符串。
八. 匹配操做符(~)
用來在記錄或者域內匹配正則表達式。如$ awk '$1 ~/^root/' test將顯示test文件第一列中以root開頭的行。
九. 比較表達式
conditional expression1 ? expression2: expression3,
例如:$ awk '{max = {$1 > $3} ? $1: $3: print max}' test。若是第一個域大於第三個域,$1就賦值給max,不然$3就賦值給max。
$ awk '$1 + $2 < 100' test。若是第一和第二個域相加大於100,則打印這些行。
$ awk '$1 > 5 && $2 < 10' test,若是第一個域大於5,而且第二個域小於10,則打印這些行。
十. 範圍模板
範圍模板匹配從第一個模板的第一次出現到第二個模板的第一次出現之間全部行。若是有一個模板沒出現,則匹配到開頭或末尾。如$ awk '/root/,/mysql/' test將顯示root第一次出現到mysql第一次出現之間的全部行。
十一. 示例
1、awk '/101/' file 顯示文件file中包含101的匹配行。
awk '/101/,/105/' file
awk '$1 == 5' file
awk '$1 == "CT"' file 注意必須帶雙引號
awk '$1 * $2 >100 ' file
awk '$2 >5 && $2<=15' file
2、awk '{print NR,NF,$1,$NF,}' file 顯示文件file的當前記錄號、域數和每一行的第一個和最後一個域。
awk '/101/ {print $1,$2 + 10}' file 顯示文件file的匹配行的第1、二個域加10。
awk '/101/ {print $1$2}' file
awk '/101/ {print $1 $2}' file 顯示文件file的匹配行的第1、二個域,但顯示時域中間沒有分隔符。
3、df | awk '$4>1000000 ' 經過管道符得到輸入,如:顯示第4個域知足條件的行。
4、awk -F "|" '{print $1}' file 按照新的分隔符「|」進行操做。
awk 'BEGIN { FS="[: /t|]" }
{print $1,$2,$3}' file 經過設置輸入分隔符(FS="[: /t|]")修改輸入分隔符。
Sep="|"
awk -F $Sep '{print $1}' file 按照環境變量Sep的值作爲分隔符。
awk -F '[ :/t|]' '{print $1}' file 按照正則表達式的值作爲分隔符,這裏表明空格、:、TAB、|同時作爲分隔符。
awk -F '[][]' '{print $1}' file 按照正則表達式的值作爲分隔符,這裏表明[、]
5、awk -f awkfile file 經過文件awkfile的內容依次進行控制。
cat awkfile
/101/{print "/047 Hello! /047"} --遇到匹配行之後打印 ' Hello! './047表明單引號。
{print $1,$2} --由於沒有模式控制,打印每一行的前兩個域。
6、awk '$1 ~ /101/ {print $1}' file 顯示文件中第一個域匹配101的行(記錄)。
7、awk 'BEGIN { OFS="%"}
{print $1,$2}' file 經過設置輸出分隔符(OFS="%")修改輸出格式。
8、awk 'BEGIN { max=100 ;print "max=" max}
BEGIN 表示在處理任意行以前進行的操做。
{max=($1 >max ?$1:max); print $1,"Now max is "max}' file 取得文件第一個域的最大值。
9、awk '$1 * $2 >100 {print $1}' file 顯示文件中第一個域匹配101的行(記錄)。
10、awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行後先將第3個域替換後再顯示該行(記錄)。
awk '{$7 %= 3; print $7}' file 將第7域被3除,並將餘數賦給第7域再打印。
11、awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行後爲變量wage賦值並打印該變量。
12、awk '/tom/ {count++;}
END {print "tom was found "count" times"}' file
END表示在全部輸入行處理完後進行處理。
13、awk 'gsub(//$/,"");gsub(/,/,""); cost+=$4;
END {print "The total is $" cost>"filename"}' file
gsub函數用空串替換$和,再將結果輸出到filename中。
1 2 3 $1,200.00
1 2 3 $2,300.00
1 2 3 $4,000.00
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>1000&&$4<2000) c1+=$4;
else if ($4>2000&&$4<3000) c2+=$4;
else if ($4>3000&&$4<4000) c3+=$4;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file
經過if和else if完成條件語句
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>3000&&$4<4000) exit;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file
經過exit在某條件時退出,可是仍執行END操做。
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>3000) next;
else c4+=$4; }
END {printf "c4=[%d]/n",c4}"' file
經過next在某條件時跳過該行,對下一行執行操做。
14、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall
把file1、file2、file3的文件內容所有寫到fileall中,格式爲打印文件並前置文件名。
15、awk ' $1!=previous { close(previous); previous=$1 }
{print substr($0,index($0," ") +1)>$1}' fileall
把合併後的文件從新分拆爲3個文件。並與原文件一致。
16、awk 'BEGIN {"date"|getline d; print d}'
經過管道把date的執行結果送給getline,並賦給變量d,而後打印。
17、awk 'BEGIN {system("echo "Input your name://c""); getline d;print "/nYour name is",d,"/b!/n"}'
經過getline命令交互輸入name,並顯示出來。
awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}'
打印/etc/passwd文件中用戶名包含050x_的用戶名。
18、awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file 經過while語句實現循環。
awk '{ for(i=1;i<NF;i++) {print NF,$i}}' file 經過for語句實現循環。
type file|awk -F "/" '
{ for(i=1;i<NF;i++)
{ if(i==NF-1) { printf "%s",$i }
else { printf "%s/",$i } }}'
顯示一個文件的全路徑。
用for和if顯示日期
awk 'BEGIN {
for(j=1;j<=12;j++)
{ flag=0;
printf "/n%d月份/n",j;
for(i=1;i<=31;i++)
{
if (j==2&&i>28) flag=1;
if ((j==4||j==6||j==9||j==11)&&i>30) flag=1;
if (flag==0) {printf "%02d%02d ",j,i}
}
}
}'
19、在awk中調用系統變量必須用單引號,若是是雙引號,則表示字符串
Flag=abcd
awk '{print '$Flag'}' 結果爲abcd
awk '{print "$Flag"}' 結果爲$Flag
20. 其餘小示例
$ awk '/^(no|so)/' test-----打印全部以模式no或so開頭的行。
$ awk '/^[ns]/{print $1}' test-----若是記錄以n或s開頭,就打印這個記錄。
$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----若是第一個域以兩個數字結束就打印這個記錄。
$ awk '$1 == 100 || $2 < 50' test-----若是第一個或等於100或者第二個域小於50,則打印該行。
$ awk '$1 != 10' test-----若是第一個域不等於10就打印該行。
$ awk '/test/{print $1 + 10}' test-----若是記錄包含正則表達式test,則第一個域加10並打印出來。
$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----若是第一個域大於5則打印問號後面的表達式值,不然打印冒號後面的表達式值。
$ awk '/^root/,/^mysql/' test----打印以正則表達式root開頭的記錄到以正則表達式mysql開頭的記錄範圍內的全部記錄。若是找到一個新的正則表達式root開頭的記錄,則繼續打印直到下一個以正則表達式mysql開頭的記錄爲止,或到文件末尾。