怎樣使用 awk 刪掉文件中重複的行

時間 2019-12-16

標籤怎樣使用 awk 刪掉文件重複欄目 Linux 简体版

原文原文鏈接

學習怎樣使用 awk 的 !visited[$0]++ 在不從新排序或改變原排列順序的前提下刪掉重複的行。html

假設你有一個文本文件，你須要刪掉全部重複的行。node

要保持原來的排列順序刪掉重複行，使用：linux

awk '!visited[$0]++' your_file > deduplicated_file
複製代碼

這個腳本維護一個關聯數組，索引（鍵）爲文件中去重後的行，每一個索引對應的值爲該行出現的次數。對於文件的每一行，若是這行（以前）出現的次數爲 0，則值加 1，並打印這行，不然值加 1，不打印這行。git

我以前不熟悉 awk，我想弄清楚這麼短小的一個腳本是怎麼實現的。我調研了下，下面是調研心得：github

總的來講，整個表達式的意思是：數組

<模式/表達式> { <動做> }
複製代碼

若是匹配到了模式，就會執行後面的動做。若是省略動做，awk 默認會打印（print）輸入。學習

省略動做等價於 {print $0}。spa

咱們的腳本由一個 awk 表達式語句組成，省略了動做。所以這樣寫：unix

awk '!visited[$0]++' your_file > deduplicated_file
複製代碼

等於這樣寫：

awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file
複製代碼

對於文件的每一行，若是表達式匹配到了，這行內容被打印到輸出。不然，不執行動做，不打印任何東西。

uniq 命令僅能對相鄰的行去重。這是一個示例：

$ cat test.txt
A
A
A
B
B
B
A
A
C
C
C
B
B
A
$ uniq < test.txt
A
B
A
C
B
A
複製代碼

咱們也能夠用下面的 sort 命令來去除重複的行，可是原來的行順序沒有被保留。

sort -u your_file > sorted_deduplicated_file
複製代碼

上面的方法會產出一個去重的文件，各行是基於內容進行排序的。經過管道鏈接命令能夠解決這個問題。

cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-
複製代碼

工做原理

假設咱們有下面一個文件：

abc
ghi
abc
def
xyz
def
ghi
klm
複製代碼

cat -n test.txt 在每行前面顯示序號：

1       abc
2       ghi
3       abc
4       def
5       xyz
6       def
7       ghi
8       klm
複製代碼

sort -uk2 基於第二列（k2 選項）進行排序，對於第二列相同的值只保留一次（u 選項）：

1       abc
4       def
2       ghi
8       klm
5       xyz
複製代碼

sort -nk1 基於第一列排序（k1 選項），把列的值做爲數字來處理（-n 選項）：

1       abc
2       ghi
4       def
5       xyz
8       klm
複製代碼

最後，cut -f2- 從第二列開始打印每一行，直到最後的內容（-f2- 選項：留意 - 後綴，它表示這行後面的內容都包含在內）。

abc
ghi
def
xyz
klm
複製代碼

以上爲全文。

做者：Lazarus Lazaridis 選題：lujun9972 譯者：lxbwolf 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

相關標籤/搜索