學習怎樣使用 awk 的
!visited[$0]++
在不從新排序或改變原排列順序的前提下刪掉重複的行。html
假設你有一個文本文件,你須要刪掉全部重複的行。node
要保持原來的排列順序刪掉重複行,使用:linux
awk '!visited[$0]++' your_file > deduplicated_file
複製代碼
這個腳本維護一個關聯數組,索引(鍵)爲文件中去重後的行,每一個索引對應的值爲該行出現的次數。對於文件的每一行,若是這行(以前)出現的次數爲 0,則值加 1,並打印這行,不然值加 1,不打印這行。git
我以前不熟悉 awk
,我想弄清楚這麼短小的一個腳本是怎麼實現的。我調研了下,下面是調研心得:github
!visited[$0]++
對輸入文件的每一行都執行。visited[]
是一個關聯數組(又名映射)類型的變量。awk
會在第一次執行時初始化它,所以咱們不須要初始化。$0
變量的值是當前正在被處理的行的內容。visited[$0]
經過與 $0
(正在被處理的行)相等的鍵來訪問該映射中的值,即出現次數(咱們在下面設置的)。!
對錶示出現次數的值取反:
awk
中,任意非零的數或任意非空的字符串的值是 true
。visited[$0]
的值是一個比 0 大的數,取反後被解析成 false
。visited[$0]
的值爲等於 0 的數字或空字符串,取反後被解析成 true
。++
表示變量 visited[$0]
的值加 1。
awk
自動把它轉換爲 0
(數字) 後加 1。總的來講,整個表達式的意思是:數組
true
:若是表示出現次數爲 0 或空字符串false
:若是出現的次數大於 0awk
由 模式或表達式和一個與之關聯的動做 組成:bash
<模式/表達式> { <動做> }
複製代碼
若是匹配到了模式,就會執行後面的動做。若是省略動做,awk
默認會打印(print
)輸入。學習
省略動做等價於
{print $0}
。spa
咱們的腳本由一個 awk
表達式語句組成,省略了動做。所以這樣寫:unix
awk '!visited[$0]++' your_file > deduplicated_file
複製代碼
等於這樣寫:
awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file
複製代碼
對於文件的每一行,若是表達式匹配到了,這行內容被打印到輸出。不然,不執行動做,不打印任何東西。
uniq
命令僅能對相鄰的行去重。這是一個示例:
$ cat test.txt
A
A
A
B
B
B
A
A
C
C
C
B
B
A
$ uniq < test.txt
A
B
A
C
B
A
複製代碼
咱們也能夠用下面的 sort 命令來去除重複的行,可是原來的行順序沒有被保留。
sort -u your_file > sorted_deduplicated_file
複製代碼
上面的方法會產出一個去重的文件,各行是基於內容進行排序的。經過管道鏈接命令能夠解決這個問題。
cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-
複製代碼
工做原理
假設咱們有下面一個文件:
abc
ghi
abc
def
xyz
def
ghi
klm
複製代碼
cat -n test.txt
在每行前面顯示序號:
1 abc
2 ghi
3 abc
4 def
5 xyz
6 def
7 ghi
8 klm
複製代碼
sort -uk2
基於第二列(k2
選項)進行排序,對於第二列相同的值只保留一次(u
選項):
1 abc
4 def
2 ghi
8 klm
5 xyz
複製代碼
sort -nk1
基於第一列排序(k1
選項),把列的值做爲數字來處理(-n
選項):
1 abc
2 ghi
4 def
5 xyz
8 klm
複製代碼
最後,cut -f2-
從第二列開始打印每一行,直到最後的內容(-f2-
選項:留意 -
後綴,它表示這行後面的內容都包含在內)。
abc
ghi
def
xyz
klm
複製代碼
以上爲全文。
via: opensource.com/article/19/…
做者:Lazarus Lazaridis 選題:lujun9972 譯者:lxbwolf 校對:wxy