那些年我用awk時踩過的坑——awk使用注意事項

時間 2019-11-29

原文原文鏈接

因爲項目經歷緣由，常用awk處理一些文本數據。甚至，我特地下載了一個windows上的awk：gawk.exe，這樣在windows上也能享受awk處理數據的方便性，。c++

俗話說，「常在河邊走，哪能不溼鞋」，使用awk過程當中碰上過很多坑，這裏稍總結一下，但願對你們有幫助。正則表達式

1 FS問題
看看這兩個awk腳本：shell

cat demo_1.txt demo_2.txt
1|2|3|4|
1|@|2|@|3|@|4|@|
awk -F '|' '{print $2}' demo_1.txt; # 腳本1
awk -F '|@|' '{print $2}' demo_2.txt; # 腳本2

腳本原目的是達到的目的是分別按'|'和分隔'|@|'，輸出demo.txt第二列。但實際上，第一個腳本這樣寫沒錯，但第二個腳本倒是錯的。express

爲何呢？windows

由於豎線在正則表達式中是一個特殊字符，表示匹配豎線左右的字符組之一。若是想使用豎線自己，須要對用轉義符。數組

但爲何第一個命令也同樣使用了豎線卻沒有問題呢？數據結構

這就涉及到awk在一個規定：函數

若是FS設置了不止一個字符做爲字段分隔符，將做爲一個正則表達式來解釋，不然直接按該字符作爲分隔符對每行進行分割。編碼

因此第一個命令使用了豎線作分隔符沒問題，第二個命令就出錯了。spa

2 正則表達式與反斜槓號問題
繼續上面的問題討論，若是demo.txt是按"|@|"作爲分隔符的，要輸出demo.txt第二列，正確的答案應該是怎麼寫呢？
答案是：

awk -F '\\|@\\|' '{print $2}' demo.txt;

先來看一個試驗：

echo|awk -F '|@|' '{print FS}' # 腳本1
echo|awk -F '\|@\|' '{print FS}' # 腳本2
echo|awk -F '\\|@\\|' '{print FS}' # 腳本3

能夠看到第一和第二個腳本，FS值是同樣的。緣由是awk先要解析用戶輸入的字符串，並將解析結果賦值給FS，而後再調用split類函數，把FS當成函數參數傳進去。

而split須要再對FS進行一次解析，編譯成正則表達式。awk解析字符串給FS變量賦值時會把'\|'認爲是'|'，從而致使傳進split函數時，分隔符已。

所以，若是想讓awk正確分割記錄，須要使FS='\\|@\\|'，這時awk會把\\解析成轉義字符'\'，這樣豎線就能被當普通字符處理國。

3 關聯數組訪問問題

曾經碰上過這樣一個場景：文件a.txt包含少許用戶餘額(userid|amt)，約100行記錄，文件b.txt包含了全部用戶的餘額(userid|amt)，約有100萬行記錄。

如今要求關連a.txt和b.txt（使用userid），找出在a.txt與b.txt都存在的userid，並輸出其中b.amt大於a.amt的記錄。

當時我先寫了如下腳本：

awk -F '|' 'BEGIN{ while(getline < "a.txt") { v_user_map[$1] = $2; } }
{
    v_amt_a = v_user_map[$1];
    if ((v_amt_a != "") && v_amt_a < $2) print $0;
}

看起來邏輯彷佛沒有問題，因而開始跑。可是跑起來發現效率遠比本身想象的低，並且發現程序運行過程消耗的內存愈來愈多。

這明顯是有問題的，理論上應該是BEGIN那段語句會消耗一些內存，以後應該就不須要再消耗纔對。

因爲寫過c++代碼，裏面也有相似關聯數組的數據結構，我很快猜想並實驗證實緣由：v_amt_a = v_user_map[$1]; 這一句。

雖然這裏沒有給v_user_map[$1]賦值，可是awk會默認賦值爲空，致使v_user_map數組元素愈來愈多，佔用內存空間愈來愈大，查找效率愈來愈低。

知道問題就好解決了，查了一下awk幫助手冊，發現能夠這樣寫：

awk -F '|' 'BEGIN{ while(getline < "a.txt") { v_user_map[$1] = $2; } }
{
    if ($1 in v_user_map) { if (v_user_map[$1] < $2) print $0; }
}

使用in操做符來判斷元素是否在關聯數組裏面，這樣就不會有默認賦值。

4 內存限制問題

若是awk是32位程序（可使用file命令判斷），那麼上面的腳本1，極可能跑着跑着就core了。由於默認狀況下，32位的awk最多隻能消耗256M內存。

若是申請內存超過這個數就會發生異常退出。

解決方法是使用64位程序，或者修改環境變量「export LDR_CNTRL=MAXDATA=0x80000000」。(AIX4.3以上有效)

5 getline返回值問題

注意樓上的getline用法，while(getline < "a.txt")循環讀取文件直到結束。這樣寫實際上是不太規範的，有隱患。

曾經我覺得getline讀到文件尾會把$0置空，後來實踐發現實際不是這樣的。geline在碰上文件尾時會返回0，但$0仍是保持最後一行的記錄不變。因而就改爲這種寫法。

不過這種寫法，有時也會碰上問題，緣由：getline返回值有三種狀況：1 正常讀取到一條記錄 0 達到文件尾 -1 文件不存在或其它錯誤。

若是a.txt不存在，getline會返回-1，致使死循環。我之前曾經碰上過由於這個緣由致使程序掛死，因此特別提出來讓你們注意。

建議你們使用函數前最好先看看幫助文檔裏面關於函數描述。

6 管道問題

先來看這個腳本：

ls -1rt
demo.txt
list.txt
echo -e "\n\n" | awk '{ while("ls -1rt" | getline) { print NR " : " $0 > "list.txt";}}'

猜猜看：腳本運行完後list.txt裏面的內容是什麼？

答案：

cat list.txt
1 : demo.txt
1 : list.txt

相信有很多朋友會以爲詫異：

有些人會認爲list.txt裏面應該只有一行數據，就是ls -1rt命令輸出內容的最後一行。

有些人會認爲應該有6條數據纔對，由於ls -1rt執行了三次。

有這種想法的人，多半是不知道awk一個規定： 默認狀況下同一個文件或者管道只打開一次，若是須要重複打開，須要先close。

上面的腳本因爲沒有顯式close文件和管道，list.txt和ls -1rt都只打開/執行了一次，因此輸出結果如上。

再猜猜看：下面這個腳本運行完後list.txt裏面的內容是什麼？

echo -e "\n\n" | awk '{ while("ls -1rt" | getline) { print NR " : " $0 > "list.txt";} close("list.txt"); close("ls -1rt");}'

7 輸出單引號問題

你們知道，awk腳本通常是用單引號括起來的，形如：awk '{ print "do something"; }' 。

所以，在awk中要使用單引號是比較麻煩的事情。網上找awk輸出單引號通常能夠找到如下方法：

echo | awk '{ print "'\''"; }'

不少人所以就誤會了，覺得awk腳本因爲使用了單引號作爲腳本開始結束標誌，因此在awk腳本里面是不能直接使用單引號的。

其實這是誤會了，看下面的腳本你就知道。

cat demo.awk
{ print "'"; }
echo | awk -f demo.awk
'

可見，awk腳本是能夠直接使用單引號的，也不須要使用單引號把腳本括起來。之因此在命令行須要用這麼彆扭的寫法，是由於shell的關係：使用單引號括起來的內容，不會被shell當成特殊字符處理。

由於awk腳本里面常常須要$n來獲取第幾個字段的內容，而$在shell裏面是有特殊意義的，表明變量開始。若是不用單引號括起來，就會出問題。

'{ print "'\''"; }' 這段能夠這樣理解：腳本分三段

1、 '{ print "' ；

2、 \'；

3、 '"； }'；

每段被shell解析後是這樣的

1、 { print " ；

2、 '；

3、 "； } ；

三段合起來就是傳給awk的腳本內容：{ print "'"; }。理解了這個以後，在windows使用awk碰上如下問題，你就知道怎麼解決了：

C:\Users\hch>awk '{print "";}'
awk: '{print
awk: ^ invalid char ''' in expression

8 自動隱式轉換問題

在c語言裏面，咱們習慣了整數相除，結果仍是整數。因此5/2結果是2，不是2.5。

然而在awk裏面，因爲沒有明確指定變量類型，因此在變量計算過程常常會發現隱式轉換,整數相除結果多是小數。
舉例：

echo | awk '{v_result = 5 / 2; print v_result}' 
2.5

若是咱們想要實現c語言的整數相除效果，要怎麼辦呢？可使用int函數，以下：

echo | awk '{v_result = int(5 / 2); print v_result}' 
2

9 中文豎線問題

實際工做中，常常碰上文件中每行記錄裏面用豎線'|'作爲分隔符的，如"a|b|c|d"。若是文件裏面沒有中文，這樣作是沒問題的。

但若是有中文，特別是gbk編碼在中文時，這樣作就容易出問題了。

gbk編碼中，中文由兩個字節組成，第一個字節取值範圍是[128, 256)，第二個字節取值範圍是[0, 256)。

若是第二個字節值正好是'124'，也就是'|'字符的asscii碼，awk處理時就會誤覺得這個字節是分隔符，從而致使分割字符串時出現錯亂。

那有哪些中文是這樣的呢？能夠用如下腳本輸出gbk編碼中包含豎線的特殊中文：（其它編碼相似）

echo|awk '{for(i = 128; i < 256; i++) { printf("%c| ", i); } }' #終端編碼要是GBK

€| 亅 倈 億 剕 厊 啢 噟 坾 墊 妡 媩 寍 峾 巪 弢 恷 憒 抾 搢 攟 晐 東 梶 榺 檤 殀 泑 渱 潀 瀨 焲 爘        ▅ ﹟ 獆 珅 瑋 瓅 畖 瘄 皘 眧 瞸 硘 磡 祙 秥 穦 竱 箌 簗 粅 紎 絴 緗 縷 纜 羭 聕 脇 膢 舼 苵 莬 葇 蓔 蕓 藎 蘾 蛗 蝲 蟶 衸 褆 襹 觸 詜 諀 謡 讄 貄 質 趞 踻 軀 輡 迀 遼 鄚 醸 鈢 銃 鋦 鍇 鎩 鐋 鑭 閨 陓 雦 靯 韡 顋 飢 饇 駖 騶 髚 魘 鮸 鰘 鱸 鴟 鵿 鷟 鹼 鼃 齶 

碰上這種狀況暫時我沒有發現太好的處理方法，建議使用比較長的分隔符，減小碰上問題的機率，如'|@|'。

若是分隔符不可變，那能夠考慮使用iconv轉換編碼，處理完後再轉換回來。

10 函數名與變量名衝突

awk內置了不少函數，若是不當心把變量名字取得跟這些函數名字同樣，程序就會報錯。提示很不清楚，就只是說錯了，不說緣由，特別坑。
例如如下這個報錯：

awk '{ if (NR == FNR) { sub[$1] = $2; } else { print sub[$1]; } }' subsid_amt.txt subsid.txt
awk: { if (NR == FNR) { sub[$1] = $2; } else { print sub[$1]; } }
awk: ^ syntax error