十一. awk編程:
1. 變量:
在awk中變量無須定義便可使用,變量在賦值時即已經完成了定義。變量的類型能夠是數字、字符串。根據使用的不一樣,未初始化變量的值爲0或空白字符串" ",這主要取決於變量應用的上下文。下面爲變量的賦值負號列表:c++
符號 | 含義 | 等價形式 |
= | a = 5 | a = 5 |
+= | a = a + 5 | a += 5 |
-= | a = a - 5 | a -= 5 |
*= | a = a * 5 | a *= 5 |
/= | a = a / 5 | a /= 5 |
%= | a = a % 5 | a %= 5 |
^= | a = a ^ 5 | a ^= 5 |
/> awk '$1 ~ /Tom/ {Wage = $2 * $3; print Wage}' filename
該命令將從文件中讀取,並查找第一個域字段匹配Tom的記錄,再將其第二和第三個字段的乘積賦值給自定義的Wage變量,最後經過print命令將該變量打印輸出。
/> awk ' {$5 = 1000 * $3 / $2; print}' filename
在上面的命令中,若是$5不存在,awk將計算表達式1000 * $3 / $2的值,並將其賦值給$5。若是第五個域存在,則用表達式覆蓋$5原來的值。
咱們一樣也能夠在命令行中定義自定義的變量,用法以下:
/> awk -F: -f awkscript month=4 year=2011 filename
這裏的month和year都是自定義變量,且分別被賦值爲4和2000,在awk的腳本中這些變量將能夠被直接使用,他們和腳本中定義的變量在使用上沒有任何區別。
除此以外,awk還提供了一組內建變量(變量名所有大寫),見以下列表:正則表達式
變量名 | 變量內容 |
ARGC | 命令行參數的數量。 |
ARGIND | 命令行正在處理的當前文件的AGV的索引。 |
ARGV | 命令行參數數組。 |
CONVFMT | 轉換數字格式。 |
ENVIRON | 從shell中傳遞來的包含當前環境變量的數組。 |
ERRNO | 當使用close函數或者經過getline函數讀取的時候,發生的從新定向錯誤的描述信息就保存在這個變量中。 |
FIELDWIDTHS | 在對記錄進行固定域寬的分割時,能夠替代FS的分隔符的列表。 |
FILENAME | 當前的輸入文件名。 |
FNR | 當前文件的記錄號。 |
FS | 輸入分隔符,默認是空格。 |
IGNORECASE | 在正則表達式和字符串操做中關閉大小寫敏感。 |
NF | 當前文件域的數量。 |
NR | 當前文件記錄數。 |
OFMT | 數字輸出格式。 |
OFS | 輸出域分隔符。 |
ORS | 輸出記錄分隔符。 |
RLENGTH | 經過match函數匹配的字符串的長度。 |
RS | 輸入記錄分隔符。 |
RSTART | 經過match函數匹配的字符串的偏移量。 |
SUBSEP | 下標分隔符。 |
/> cat employees2
Tom Jones:4424:5/12/66:543354
Mary Adams:5346:11/4/63:28765
Sally Chang:1654:7/22/54:650000
Mary Black:1683:9/23/44:336500
/> awk -F: '{IGNORECASE = 1}; $1 == "mary adams" { print NR, $1, $2, $NF}' employees2
2 Mary Adams 5346 28765
/> awk -F: ' $1 == "mary adams" { print NR, $1, $2, $NF}' employees2
沒有輸出結果。
當IGNORECASE內置變量的值爲非0時,表示在進行字符串操做和處理正則表達式時關閉大小寫敏感。這裏的"mary adams"將匹配文件中的"Mary Admams"記錄。最後print打印出第1、第二和最後一個域。須要說明的是NF表示當前記錄域的數量,所以$NF將表示最後一個域的值。
awk在動做部分還提供了BEGIN塊和END塊。其中BEGIN動做塊在awk處理任何輸入文件行以前執行。事實上,BEGIN塊能夠在沒有任何輸入文件的條件下測試。由於在BEGIN塊執行完畢之前awk將不讀取任何輸入文件。BEGIN塊一般被用來改變內建變量的值,如OFS、RS或FS等。也能夠用於初始化自定義變量值,或打印輸出標題。
/> awk 'BEGIN {FS = ":"; OFS = "\t"; ORS = "\n\n"} { print $1,$2,$3} filename
上例中awk在處理文件以前,已經將域分隔符(FS)設置爲冒號,輸出文件域分隔符(OFS)設置爲製表符,輸出記錄分隔符(ORS)被設置爲兩個換行符。BEGIN以後的動做模塊中若是有多個語句,他們之間用分號分隔。
和BEGIN偏偏相反,END模塊中的動做是在整個文件處理完畢以後被執行的。
/> awk 'END {print "The number of the records is " NR }' filename
awk在處理輸入文件以後,執行END模塊中的動做,上例中NR的值是讀入的最後一個記錄的記錄號。
/> awk '/Mary/{count++} END{print "Mary was found " count " times." }' employees2
Mary was found 2 times.shell
/> awk '/Mary/{count++} END{print "Mary was found " count " times." }' employees2
Mary was found 2 times.
/> cat testfile
northwest NW Charles Main 3.0 .98 3 34
western WE Sharon Gray 5.3 .97 5 23
southwest SW Lewis Dalsass 2.7 .8 2 18
southern SO Suan Chin 5.1 .95 4 15
southeast SE Patricia Hemenway 4.0 .7 4 17
eastern EA TB Savage 4.4 .84 5 20
northeast NE AM Main Jr. 5.1 .94 3 13
north NO Margot Weber 4.5 .89 5 9
central CT Ann Stephens 5.7 .94 5 13
/> awk '/^north/{count += 1; print count}' testfile #如記錄以正則north開頭,則建立變量count同時增一,再輸出其值。
1
2
3
#這裏只是輸出前三個字段,其中第七個域先被賦值給變量x,在自減一,最後再同時打印出他們。
/> awk 'NR <= 3 {x = $7--; print "x = " x ", $7 = " $7}' testfile
x = 3, $7 = 2
x = 5, $7 = 4
x = 2, $7 = 1
#打印NR(記錄號)的值在2--5之間的記錄。
/> awk 'NR == 2,NR == 5 {print "The record number is " NR}' testfile
The record number is 2
The record number is 3
The record number is 4
The record number is 5
#打印環境變量USER和HOME的值。環境變量的值由父進程shell傳遞給awk程序的。
/> awk 'BEGIN { print ENVIRON["USER"],ENVIRON["HOME"]}'
root /root
#BEGIN塊兒中對OFS內置變量從新賦值了,所以後面的輸出域分隔符改成了\t。
/> awk 'BEGIN { OFS = "\t"}; /^Sharon/{ print $1,$2,$7}' testfile
western WE 5
#從輸入文件中找到以north開頭的記錄count就加一,最後在END塊中輸出該變量。
/> awk '/^north/{count++}; END{print count}' testfile
3express
2. 從新定向:
在動做語句中使用shell通用的重定向輸出符號">"就能夠完成awk的重定向操做,當使用>的時候,原有文件將被清空,同時文件持續打開,直到文件被明確的關閉或者awk程序終止。來自後面的打印語句的輸出會追加到前面內容的後面。符號">>"用來打開一個文件可是不清空原有文件的內容,重定向的輸出只是被追加到這個文件的末尾。
/> awk '$4 >= 70 {print $1,$2 > "passing_file"}' filename #注意這裏的文件名須要用雙引號括起來。
#經過兩次cat的結果能夠看出>和>>的區別。
/> awk '/north/{print $1,$3,$4 > "districts" }' testfile
/> cat districts
northwest Joel Craig
northeast TJ Nichols
north Val Shultz
/> awk '/south/{print $1,$3,$4 >> "districts" }' testfile
/> cat districts
northwest Joel Craig
northeast TJ Nichols
north Val Shultz
southwest Chris Foster
southern May Chin
southeast Derek Jonhson編程
awk中對於輸入重定向是經過getline函數來完成的。getline函數的做用是從標準輸入、管道或者當前正在處理的文件以外的其餘輸入文件得到輸入。他負責從輸入得到下一行的內容,並給NF、NR和FNR等內建變量賦值。若是獲得一個記錄,getline就返回1,若是達到文件末尾就返回0。若是出現錯誤,如打開文件失敗,就返回-1。
/> awk 'BEGIN { "date" | getline d; print d}'
Tue Nov 15 15:31:42 CST 2011
上例中的BEGIN動做模塊中,先執行shell命令date,並經過管道輸出給getline,而後再把輸出賦值給自定義變量d並打印輸出它。
/> awk 'BEGIN { "date" | getline d; split(d,mon); print mon[2]}'
Nov
上例中date命令經過管道輸出給getline並賦值給d變量,再經過內置函數split將d拆分爲mon數組,最後print出mon數組的第二個元素。
/> awk 'BEGIN { while("ls" | getline) print}'
employees
employees2
testfile
命令ls的輸出傳遞給getline做爲輸入,循環的每一個反覆,getline都從ls的結果中讀取一行輸入,並把他打印到屏幕。
/> awk 'BEGIN { printf "What is your name? "; \
getline name < "/dev/tty"}\
$1 ~ name {print "Found" name " on line ", NR "."}\
END {print "See ya, " name "."}' employees2
What is your name? Mary
Found Mary on line 2.
See ya, Mary.
上例先是打印出BEGIN塊中的"What is your name? ",而後等待用戶從/dev/tty輸入,並將讀入的數據賦值給name變量,以後再從輸入文件中讀取記錄,並找到匹配輸入變量的記錄並打印出來,最後在END塊中輸出結尾信息。
/> awk 'BEGIN { while(getline < "/etc/passwd" > 0) lc++; print lc}'
32
awk將逐行讀取/etc/passwd文件中的內容,在達到文件末尾以前,計數器lc一直自增1,當到了末尾後打印lc的值。lc的值爲/etc/passwd文件的行數。
因爲awk中同時打開的管道只有一個,那麼在打開下一個管道以前必須關閉它,管道符號右邊能夠經過能夠經過雙引號關閉管道。若是不關閉,它將始終保持打開狀態,直到awk退出。
/> awk {print $1,$2,$3 | "sort -4 +1 -2 +0 -1"} END {close("sort -4 +1 -2 +0 -1") } filename
上例中END模塊中的close顯示關閉了sort的管道,須要注意的是close中關閉的命令必須和當初打開時的徹底匹配,不然END模塊產生的輸出會和之前的輸出一塊兒被sort分類。數組
3. 條件語句:
awk中的條件語句是從C語言中借鑑來的,見以下聲明方式:
if (expression) {
statement;
statement;
... ...
}
/> awk '{if ($6 > 50) print $1 "Too hign"}' filename
/> awk '{if ($6 > 20 && $6 <= 50) { safe++; print "OK}}' filename
if (expression) {
statement;
} else {
statement2;
}
/> awk '{if ($6 > 50) print $1 " Too high"; else print "Range is OK" }' filename
/> awk '{if ($6 > 50) { count++; print $3 } else { x = 5; print $5 }' filename
if (expression) {
statement1;
} else if (expression1) {
statement2;
} else {
statement3;
}
/> awk '{if ($6 > 50) print "$6 > 50" else if ($6 > 30) print "$6 > 30" else print "other"}' filename
4. 循環語句:
awk中的循環語句一樣借鑑於C語言,支持while、do/while、for、break、continue,這些關鍵字的語義和C語言中的語義徹底相同。
5. 流程控制語句:
next語句是從文件中讀取下一行,而後從頭開始執行awk腳本。
exit語句用於結束awk程序。它終止對記錄的處理。可是不會略過END模塊,若是exit()語句被賦值0--255之間的參數,如exit(1),這個參數就被打印到命令行,以判斷退出成功仍是失敗。
6. 數組:
由於awk中數組的下標能夠是數字和字母,數組的下標一般被稱爲關鍵字(key)。值和關鍵字都存儲在內部的一張針對key/value應用hash的表格裏。因爲hash不是順序存儲,所以在顯示數組內容時會發現,它們並非按照你預料的順序顯示出來的。數組和變量同樣,都是在使用時自動建立的,awk也一樣會自動判斷其存儲的是數字仍是字符串。通常而言,awk中的數組用來從記錄中收集信息,能夠用於計算總和、統計單詞以及跟蹤模板被匹配的次數等等。
/> cat employees
Tom Jones 4424 5/12/66 543354
Mary Adams 5346 11/4/63 28765
Sally Chang 1654 7/22/54 650000
Billy Black 1683 9/23/44 336500
/> awk '{name[x++] = $2}; END{for (i = 0; i < NR; i++) print i, name[i]}' employees
0 Jones
1 Adams
2 Chang
3 Black
在上例中,數組name的下標是變量x。awk初始化該變量的值爲0,在每次使用後自增1,讀取文件中的第二個域的值被依次賦值給name數組的各個元素。在END模塊中,for循環遍歷數組的值。由於下標是關鍵字,因此它不必定從0開始,能夠從任何值開始。
#這裏是用內置變量NR做爲數組的下標了。
/> awk '{id[NR] = $3}; END {for (x = 1; x <= NR; x++) print id[x]}' employees
4424
5346
1654
1683
awk中還提供了一種special for的循環,見以下聲明:
for (item in arrayname) {
print arrayname[item]
}
/> cat db
Tom Jones
Mary Adams
Sally Chang
Billy Black
Tom Savage
Tom Chung
Reggie Steel
Tommy Tucker
/> awk '/^Tom/{name[NR]=$1}; END {for(i = 1;i <= NR; i++) print name[i]}' db
Tom
Tom
Tom
Tommy
從輸出結果能夠看出,只有匹配正則表達式的記錄的第一個域被賦值給數組name的指定下標元素。由於用NR做爲下標,因此數組的下標不多是連續的,所以在END模塊中用傳統的for循環打印時,不存在的元素就打印空字符串了。下面咱們看看用special for的方式會有什麼樣的輸出。
/> awk '/^Tom/{name[NR]=$1};END{for(i in name) print name[i]}' db
Tom
Tom
Tommy
Tom
下面咱們看一下用字符串做爲下標的例子:(若是下標是字符串文字常量,則須要用雙引號括起來)
/> cat testfile2
tom
mary
sean
tom
mary
mary
bob
mary
alex
/> awk '/tom/{count["tom"]++}; /mary/{count["mary"]++}; END{print "There are " count["tom"] \
" Toms and " count["mary"] " Marys in the file."} testfile2
There are 2 Toms and 4 Marys in the file.
在上例中,count數組有兩個元素,下標分別爲tom和mary,每個元素的初始值都是0,沒有tom被匹配的時候,count["tom"]就會加一,count["mary"]在匹配mary的時候也一樣如此。END模塊中打印出存儲在數組中的各個元素。
/> awk '{count[$1]++}; END{for(name in count) printf "%-5s%d\n",name, count[name]}' testfile2
mary 4
tom 2
alex 1
bob 1
sean 1
在上例中,awk是以記錄的域做爲數組count的下標。
/> awk '{count[$1]++; if (count[$1] > 1) name[$1]++}; END{print "The duplicates were "; for(i in name) print i}' testfile2
The duplicates were
mary
tom
在上例中,如count[$1]的元素值大於1的時候,也就是當名字出現屢次的時候,一個新的數組name將被初始化,最後打印出那麼數組中重複出現的名字下標。
以前咱們介紹的都是如何給數組添加新的元素,並賦予初值,如今咱們須要介紹一下如何刪除數組中已經存在的元素。要完成這一功能咱們須要使用內置函數delete,見以下命令:
/> awk '{count[$1]++}; \
END{for(name in count) {\
if (count[name] == 1)\
delete count[name];\
} \
for (name in count) \
print name}' testfile2
mary
tom
上例中的主要技巧來自END模塊,先是變量count數組,若是數組中某個元素的值等於1,則刪除該元素,這樣等同於刪除只出現一次的名字。最後用special for循環打印出數組中仍然存在的元素下標名稱。
最後咱們來看一下如何使用命令行參數數組,見以下命令:
/> awk 'BEGIN {for(i = 0; i < ARGC; i++) printf("argv[%d] is %s.\n",i,ARGV[i]); printf("The number of arguments, ARGC=%d\n",ARGC)}' testfile "Peter Pan" 12
argv[0] is awk.
argv[1] is testfile.
argv[2] is Peter Pan.
argv[3] is 12.
The number of arguments, ARGC=4
從輸出結果能夠看出,命令行參數數組ARGV是以0做爲起始下標的,命令行的第一個參數爲命令自己(awk),這個使用方式和C語句main函數徹底一致。
/> awk 'BEGIN{name=ARGV[2]; print "ARGV[2] is " ARGV[2]}; $1 ~ name{print $0}' testfile2 "bob"
ARGV[2] is bob
bob
awk: (FILENAME=testfile2 FNR=9) fatal: cannot open file `bob' for reading (No such file or directory)
先解釋一下以上命令的含義,name變量被賦值爲命令行的第三個參數,即bob,以後再在輸入文件中找到匹配該變量值的記錄,並打印出該記錄。
在輸出的第二行報出了awk的處理錯誤信息,這主要是由於awk將bob視爲輸入文件來處理了,然而事實上這個文件並不存在,下面咱們須要作進一步的處理來修正這個問題。
/> awk 'BEGIN{name=ARGV[2]; print "ARGV[2] is " ARGV[2]; delete ARGV[2]}; $1 ~ name{print $0}' testfile2 "bob"
ARGV[2] is bob
bob
從輸出結果中咱們能夠看到咱們獲得了咱們想要的結果。須要注意的是delete函數的調用必要要在BEGIN模塊中完成,由於這時awk尚未開始讀取命令行參數中指定的文件。
7. 內建函數:
字符串函數
sub(regular expression,substitution string);
sub(regular expression,substitution string,target string);
/> awk '{sub("Tom","Tommy"); print}' employees #這裏使用Tommy替換了Tom。
Tommy Jones 4424 5/12/66 543354
#當正則表達式Tom在第一個域中第一次被匹配後,他將被字符串"Tommy"替換,若是將sub函數的第三個參數改成$2,將不會有替換髮生。
/> awk '{sub("Tom","Tommy",$1); print}' employees
Tommy Jones 4424 5/12/66 543354
gsub(regular expression,substitution string);
gsub(regular expression,substitution string,target string);
和sub不一樣的是,若是第一個參數中正則表達式在記錄中出現屢次,那麼gsub將完成屢次替換,而sub只是替換第一次出現的。
index(string,substring)
該函數將返回第二個參數在第一個參數中出現的位置,偏移量從1開始。
/> awk 'BEGIN{print index("hello","el")}'
2
length(string)
該函數返回字符串的長度。
/> awk 'BEGIN{print length("hello")}'
5
substr(string,starting position)
substr(string,starting position,length of string)
該函數返回第一個參數的子字符串,其截取起始位置爲第二個參數(偏移量爲1),截取長度爲第三個參數,若是沒有該參數,則從第二個參數指定的位置起,直到string的末尾。
/> awk 'BEGIN{name = substr("Hello World",2,3); print name}'
ell
match(string,regular expression)
該函數返回在字符串中正則表達式位置的索引,若是找不到指定的正則表達式就返回0.match函數設置內置變量RSTART爲字符串中子字符串的開始位置,RLENGTH爲到字字符串末尾的字符個數。
/> awk 'BEGIN{start=match("Good ole CHINA", /[A-Z]+$/); print start}'
10
上例中的正則表達式[A-Z]+$表示在字符串的末尾搜索連續的大寫字母。在字符串"Good ole CHINA"的第10個位置找到字符串"CHINA"。
/> awk 'BEGIN{start=match("Good ole CHINA", /[A-Z]+$/); print RSTART, RLENGTH}'
10 5
RSTART表示匹配時的起始索引,RLENGTH表示匹配的長度。
/> awk 'BEGIN{string="Good ole CHINA";start=match(string, /[A-Z]+$/); print substr(string,RSTART, RLENGTH)}'
CHINA
這裏將match、RSTART、RLENGTH和substr巧妙的結合起來了。
toupper(string)
tolower(string)
以上兩個函數分別返回參數字符串的大寫和小寫的形式。
/> awk 'BEGIN {print toupper("hello"); print tolower("WORLD")}'
HELLO
world
split(string,array,field seperator)
split(string,array)
該函數使用做爲第三個參數的域分隔符把字符串分隔爲一個數組。若是第三個參數沒有提供,則使用當前默認的FS值。
/> awk 'BEGIN{split("11/20/2011",date,"/"); print date[2]}'
20
variable = sprintf("string with format specifiers ",expr1,expr2,...)
該函數和printf的差異等同於C語言中printf和sprintf的差異。前者將格式化後的結果輸出到輸出流,然後者輸出到函數的返回值中。
/> awk 'BEGIN{line = sprintf("%-15s %6.2f ", "hello",4.2); print line}'
hello 4.20
時間函數:
systime()
該函數返回當前時間距離1970年1月1日之間相差的秒數。
/> awk 'BEGIN{print systime()}'
1321369554
strftime()
時間格式化函數,其格式化規則等同於C語言中的strftime函數提供的規則,見如下列表:sass
數據格式 | 含義 |
%a | Abbreviated weekday name |
%A | Full weekday name |
%b | Abbreviated month name |
%B | Full month name |
%c | Date and time representation appropriate for locale |
%d | Day of month as decimal number (01 – 31) |
%H | Hour in 24-hour format (00 – 23) |
%I | Hour in 12-hour format (01 – 12) |
%j | Day of year as decimal number (001 – 366) |
%m | Month as decimal number (01 – 12) |
%M | Minute as decimal number (00 – 59) |
%p | Current locale's A.M./P.M. indicator for 12-hour clock |
%S | Second as decimal number (00 – 59) |
%U | Week of year as decimal number, with Sunday as first day of week (00 – 53) |
%w | Weekday as decimal number (0 – 6; Sunday is 0) |
%W | Week of year as decimal number, with Monday as first day of week (00 – 53) |
%x | Date representation for current locale |
%X | Time representation for current locale |
%y | Year without century, as decimal number (00 – 99) |
%Y | Year with century, as decimal number |
/> awk 'BEGIN{ print strftime("%D",systime())}'
11/15/11
/> awk 'BEGIN{ now = strftime("%T"); print now}'
23:17:29
內置數學函數:app
名稱 | 返回值 |
atan2(x,y) | y,x範圍內的餘切 |
cos(x) | 餘弦函數 |
exp(x) | 求冪 |
int(x) | 取整 |
log(x) | 天然對數 |
sin(x) | 正弦函數 |
sqrt(x) | 平方根 |
/> awk 'BEGIN{print 31/3}'
10.3333
/> awk 'BEGIN{print int(31/3)}'
10
自定義函數:
自定義函數能夠放在awk腳本的任何能夠放置模板和動做的地方。
function name(parameter1,parameter2,...) {
statements
return expression
}
給函數中本地變量傳遞值。只使用變量的拷貝。數組經過地址或者指針傳遞,因此能夠在函數內部直接改變數組元素的值。函數內部使用的任何沒有做爲參數傳遞的變量都被看作是全局變量,也就是這些變量對於整個程序都是可見的。若是變量在函數中發生了變化,那麼就是在整個程序中發生了改變。惟一貫函數提供本地變量的辦法就是把他們放在參數列表中,這些參數一般被放在列表的最後。若是函數調用沒有提供正式的參數,那麼參數就初始化爲空。return語句一般就返回程序控制並向調用者返回一個值。
/> cat grades
20 10
30 20
40 30
/> cat add.sc
function add(first,second) {
return first + second
}
{ print add($1,$2) }
/> awk -f add.sc grades
30
50
70函數