sort +awk+uniq 統計文件中出現次數最多的前10個單詞

時間 2019-11-08

標籤 sort awk+uniq awk uniq 統計文件出現次數最多單詞欄目 Linux 简体版

原文原文鏈接

實例
cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort -k1nr|head -100mysql

統計文件中出現次數最多的前10個單詞

使用linux命令或者shell實現：文件words存放英文單詞，格式爲每行一個英文單詞（單詞能夠重複），統計這個文件中出現次數最多的前10個單詞。linux

cat words.txt | sort | uniq -c | sort -k1,1nr | head -10c++

　　主要考察對sort、uniq命令的使用，相關解釋以下，命令及參數的詳細說明請自行經過man查看，簡單介紹下以上指令各部分的功能：正則表達式

sort: 對單詞進行排序sql

uniq -c: 顯示惟一的行，並在每行行首加上本行在文件中出現的次數shell

sort -k1,1nr: 按照第一個字段，數值排序，且爲逆序express

head -10: 取前10行數據編程

sort跨域

sort是在Linux裏很是經常使用的一個命令，管排序的，集中精力，五分鐘搞定sort，如今開始！數組

1 sort的工做原理

sort將文件的每一行做爲一個單位，相互比較，比較原則是從首字符向後，依次按ASCII碼值進行比較，最後將他們按升序輸出。

[rocrocket@rocrocket programming]$ cat seq.txt
banana
apple
pear
orange
[rocrocket@rocrocket programming]$ sort seq.txt
apple
banana
orange
pear

2 sort的-u選項

它的做用很簡單，就是在輸出行中去除重複行。

[rocrocket@rocrocket programming]$ cat seq.txt
banana
apple
pear
orange
pear
[rocrocket@rocrocket programming]$ sort seq.txt
apple
banana
orange
pear
pear
[rocrocket@rocrocket programming]$ sort -u seq.txt
apple
banana
orange
pear

pear因爲重複被-u選項無情的刪除了。

3 sort的-r選項

sort默認的排序方式是升序，若是想改爲降序，就加個-r就搞定了。

[rocrocket@rocrocket programming]$ cat number.txt
1
3
5
2
4
[rocrocket@rocrocket programming]$ sort number.txt
1
2
3
4
5
[rocrocket@rocrocket programming]$ sort -r number.txt
5
4
3
2
1

4 sort的-o選項

因爲sort默認是把結果輸出到標準輸出，因此須要用重定向才能將結果寫入文件，形如sort filename > newfile。

可是，若是你想把排序結果輸出到原文件中，用重定向可就不行了。

[rocrocket@rocrocket programming]$ sort -r number.txt > number.txt
[rocrocket@rocrocket programming]$ cat number.txt
[rocrocket@rocrocket programming]$
看，居然將number清空了。

就在這個時候，-o選項出現了，它成功的解決了這個問題，讓你放心的將結果寫入原文件。這或許也是-o比重定向的惟一優點所在。

[rocrocket@rocrocket programming]$ cat number.txt
1
3
5
2
4
[rocrocket@rocrocket programming]$ sort -r number.txt -o number.txt
[rocrocket@rocrocket programming]$ cat number.txt
5
4
3
2
1

5 sort的-n選項

你有沒有遇到過10比2小的狀況。我反正遇到過。出現這種狀況是因爲排序程序將這些數字按字符來排序了，排序程序會先比較1和2，顯然1小，因此就將10放在2前面嘍。這也是sort的一向做風。

咱們若是想改變這種現狀，就要使用-n選項，來告訴sort，「要以數值來排序」！

[rocrocket@rocrocket programming]$ cat number.txt
1
10
19
11
2
5
[rocrocket@rocrocket programming]$ sort number.txt
1
10
11
19
2
5
[rocrocket@rocrocket programming]$ sort -n number.txt
1
2
5
10
11
19

6 sort的-t選項和-k選項

若是有一個文件的內容是這樣：

[rocrocket@rocrocket programming]$ cat facebook.txt
banana:30:5.5
apple:10:2.5
pear:90:2.3
orange:20:3.4

這個文件有三列，列與列之間用冒號隔開了，第一列表示水果類型，第二列表示水果數量，第三列表示水果價格。

那麼我想以水果數量來排序，也就是以第二列來排序，如何利用sort實現？

幸虧，sort提供了-t選項，後面能夠設定間隔符。（是否是想起了cut和paste的-d選項，共鳴～～）

指定了間隔符以後，就能夠用-k來指定列數了。

[rocrocket@rocrocket programming]$ sort -n -k 2 -t : facebook.txt
apple:10:2.5
orange:20:3.4
banana:30:5.5
pear:90:2.3

咱們使用冒號做爲間隔符，並針對第二列來進行數值升序排序，結果很使人滿意。

7 其餘的sort經常使用選項

-f會將小寫字母都轉換爲大寫字母來進行比較，亦即忽略大小寫

-c會檢查文件是否已排好序，若是亂序，則輸出第一個亂序的行的相關信息，最後返回1

-C會檢查文件是否已排好序，若是亂序，不輸出內容，僅返回1

-M會以月份來排序，好比JAN小於FEB等等

-b會忽略每一行前面的全部空白部分，從第一個可見字符開始比較。

有時候學習腳本，你會發現sort命令後面跟了一堆相似-k1,2，或者-k1.2 -k3.4的東東，有些匪夷所思。今天，咱們就來搞定它—-k選項！

1 準備素材

$ cat facebook.txt
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500

第一個域是公司名稱，第二個域是公司人數，第三個域是員工平均工資。（除了公司名稱，其餘的別信，都瞎寫的^_^）

2 我想讓這個文件按公司的字母順序排序，也就是按第一個域進行排序：（這個facebook.txt文件有三個域）

$ sort -t ‘ ‘ -k 1 facebook.txt
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500

看到了吧，就直接用-k 1設定就能夠了。（其實此處並不嚴格，稍後你就會知道）

3 我想讓facebook.txt按照公司人數排序

$ sort -n -t ‘ ‘ -k 2 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000

不用解釋，我相信你能懂。

可是，此處出現了問題，那就是baidu和sohu的公司人數相同，都是100人，這個時候怎麼辦呢？按照默認規矩，是從第一個域開始進行升序排序，所以baidu排在了sohu前面。

4 我想讓facebook.txt按照公司人數排序，人數相同的按照員工平均工資升序排序：

$ sort -n -t ‘ ‘ -k 2 -k 3 facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000

看，咱們加了一個-k2 -k3就解決了問題。對滴，sort支持這種設定，就是說設定域排序的優先級，先以第2個域進行排序，若是相同，再以第3個域進行排序。（若是你願意，能夠一直這麼寫下去，設定不少個排序優先級）

5 我想讓facebook.txt按照員工工資降序排序，若是員工人數相同的，則按照公司人數升序排序：（這個有點難度嘍）

$ sort -n -t ‘ ‘ -k 3r -k 2 facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000

此處有使用了一些小技巧，你仔細看看，在-k 3後面偷偷加上了一個小寫字母r。你想一想，再結合咱們上一篇文章，能獲得答案麼？揭曉：r和-r選項的做用是同樣的，就是表示逆序。由於sort默認是按照升序排序的，因此此處須要加上r表示第三個域（員工平均工資）是按照降序排序。此處你還能夠加上n，就表示對這個域進行排序時，要按照數值大小進行排序，舉個例子吧：

$ sort -t ‘ ‘ -k 3nr -k 2n facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000

看，咱們去掉了最前面的-n選項，而是將它加入到了每個-k選項中了。

6 -k選項的具體語法格式

要繼續往下深刻的話，就不得不來點理論知識。你須要瞭解-k選項的語法格式，以下：

[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ Modifier ] ]

這個語法格式能夠被其中的逗號（「，」）分爲兩大部分，Start部分和End部分。

先給你灌輸一個思想，那就是「若是不設定End部分，那麼就認爲End被設定爲行尾」。這個概念很重要的，但每每你不會重視它。

Start部分也由三部分組成，其中的Modifier部分就是咱們以前說過的相似n和r的選項部分。咱們重點說說Start部分的FStart和C.Start。

C.Start也是能夠省略的，省略的話就表示從本域的開頭部分開始。以前例子中的-k 2和-k 3就是省略了C.Start的例子嘍。

FStart.CStart，其中FStart就是表示使用的域，而CStart則表示在FStart域中從第幾個字符開始算「排序首字符」。

同理，在End部分中，你能夠設定FEnd.CEnd，若是你省略.CEnd，則表示結尾到「域尾」，即本域的最後一個字符。或者，若是你將CEnd設定爲0(零)，也是表示結尾到「域尾」。

7 突發奇想，從公司英文名稱的第二個字母開始進行排序：

$ sort -t ‘ ‘ -k 1.2 facebook.txt
baidu 100 5000
sohu 100 4500
google 110 5000
guge 50 3000

看，咱們使用了-k 1.2，這就表示對第一個域的第二個字符開始到本域的最後一個字符爲止的字符串進行排序。你會發現baidu由於第二個字母是a而名列榜首。sohu和 google第二個字符都是o，但sohu的h在google的o前面，因此二者分別排在第二和第三。guge只能屈居第四了。

8 又突發奇想，，只針對公司英文名稱的第二個字母進行排序，若是相同的按照員工工資進行降序排序：

$ sort -t ‘ ‘ -k 1.2,1.2 -k 3,3nr facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000

因爲只對第二個字母進行排序，因此咱們使用了-k 1.2,1.2的表示方式，表示咱們「只」對第二個字母進行排序。（若是你問「我使用-k 1.2怎麼不行？」，固然不行，由於你省略了End部分，這就意味着你將對從第二個字母起到本域最後一個字符爲止的字符串進行排序）。對於員工工資進行排序，咱們也使用了-k 3,3，這是最準確的表述，表示咱們「只」對本域進行排序，由於若是你省略了後面的3，就變成了咱們「對第3個域開始到最後一個域位置的內容進行排序」了。

9 在modifier部分還能夠用到哪些選項？

能夠用到b、d、f、i、n 或 r。

其中n和r你確定已經很熟悉了。

b表示忽略本域的簽到空白符號。

d表示對本域按照字典順序排序（即，只考慮空白和字母）。

f表示對本域忽略大小寫進行排序。

i表示忽略「不可打印字符」，只針對可打印字符進行排序。（有些ASCII就是不可打印字符，好比\a是報警，\b是退格，\n是換行，\r是回車等等）

10 思考思考關於-k和-u聯合使用的例子：

$ cat facebook.txt
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500

這是最原始的facebook.txt文件。

$ sort -n -k 2 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000

$ sort -n -k 2 -u facebook.txt
guge 50 3000
baidu 100 5000
google 110 5000

當設定以公司員工域進行數值排序，而後加-u後，sohu一行就被刪除了！原來-u只識別用-k設定的域，發現相同，就將後續相同的行都刪除。

$ sort -k 1 -u facebook.txt
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500

$ sort -k 1.1,1.1 -u facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500

這個例子也同理，開頭字符是g的guge就沒有幸免於難。

$ sort -n -k 2 -k 3 -u facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000

咦！這裏設置了兩層排序優先級的狀況下，使用-u就沒有刪除任何行。原來-u是會權衡全部-k選項，將都相同的纔會刪除，只要其中有一級不一樣都不會輕易刪除的:)（不信，你能夠本身加一行sina 100 4500試試看）

11 最詭異的排序：

$ sort -n -k 2.2,3.1 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000

以第二個域的第二個字符開始到第三個域的第一個字符結束的部分進行排序。

第一行，會提取0 3，第二行提取00 5，第三行提取00 4，第四行提取10 5。

又由於sort認爲0小於00小於000小於0000….

所以0 3確定是在第一個。10 5確定是在最後一個。但爲何00 5卻在00 4前面呢？（你能夠本身作實驗思考一下。）

答案揭曉：原來「跨域的設定是個假象」，sort只會比較第二個域的第二個字符到第二個域的最後一個字符的部分，而不會把第三個域的開頭字符歸入比較範圍。當發現00和00相同時，sort就會自動比較第一個域去了。固然baidu在sohu前面了。用一個範例便可證明：

$ sort -n -k 2.2,3.1 -k 1,1r facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000

12 有時候在sort命令後會看到+1 -2這些符號，這是什麼東東？

關於這種語法，最新的sort是這麼進行解釋的：

On older systems, `sort’ supports an obsolete origin-zero syntax `+POS1 [-POS2]‘ for specifying sort keys. POSIX 1003.1-2001 (*note Standards conformance::) does not allow this; use `-k’ instead.

原來，這種古老的表示方式已經被淘汰了，之後能夠義正詞嚴的鄙視使用這種表示方法的腳本嘍！

（爲了防止古老腳本的存在，在這再說一下這種表示方法，加號表示Start部分，減號表示End部分。最最重要的一點是，這種方式方法是從0開始計數的，之前所說的第一個域，在此被表示爲第0個域。之前的第2個字符，在此表示爲第1個字符。明白？）

awkhttp://www.tsnc.edu.cn/default/tsnc_wgrj/doc/awk.htmTable of Contents1. awk簡介2. awk命令格式和選項 2.1. awk的語法有兩種形式 2.2. 命令選項3. 模式和操做 3.1. 模式 3.2. 操做4. awk的環境變量5. awk運算符6. 記錄和域 6.1. 記錄 6.2. 域 6.3. 域分隔符7. gawk專用正則表達式元字符8. POSIX字符集9. 匹配操做符(~)10. 比較表達式11. 範圍模板12. 一個驗證passwd文件有效性的例子13. 幾個實例14. awk編程 14.1. 變量 14.2. BEGIN模塊 14.3. END模塊 14.4. 重定向和管道 14.5. 條件語句 14.6. 循環 14.7. 數組 14.8. awk的內建函數15. How-to1. awk簡介awk是一種編程語言，用於在linux/unix下對文本和數據進行處理。數據能夠來自標準輸入、一個或多個文件，或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等先進功能，是linux/unix下的一個強大編程工具。它在命令行中使用，但更可能是做爲腳原本使用。awk的處理文本和數據的方式是這樣的，它逐行掃描文件，從第一行到最後一行，尋找匹配的特定模式的行，並在這些行上進行你想要的操做。若是沒有指定處理動做，則把匹配的行顯示到標準輸出(屏幕)，若是沒有指定模式，則全部被操做所指定的行都被處理。awk分別表明其做者姓氏的第一個字母。由於它的做者是三我的，分別是Alfred Aho、Brian Kernighan、Peter Weinberger。gawk是awk的GNU版本，它提供了Bell實驗室和GNU的一些擴展。下面介紹的awk是以GUN的gawk爲例的，在linux系統中已把awk連接到gawk，因此下面所有以awk進行介紹。2. awk命令格式和選項2.1. awk的語法有兩種形式 awk [options] 'script' var=value file(s) awk [options] -f scriptfile var=value file(s)2.2. 命令選項-F fs or --field-separator fs 指定輸入文件折分隔符，fs是一個字符串或者是一個正則表達式，如-F:。-v var=value or --asign var=value 賦值一個用戶定義變量。-f scripfile or --file scriptfile 從腳本文件中讀取awk命令。-mf nnn and -mr nnn 對nnn值設置內在限制，-mf選項限制分配給nnn的最大塊數目；-mr選項限制記錄的最大數目。這兩個功能是Bell實驗室版awk的擴展功能，在標準awk中不適用。-W compact or --compat, -W traditional or --traditional 在兼容模式下運行awk。因此gawk的行爲和標準的awk徹底同樣，全部的awk擴展都被忽略。-W copyleft or --copyleft, -W copyright or --copyright 打印簡短的版權信息。-W help or --help, -W usage or --usage 打印所有awk選項和每一個選項的簡短說明。-W lint or --lint 打印不能向傳統unix平臺移植的結構的警告。-W lint-old or --lint-old 打印關於不能向傳統unix平臺移植的結構的警告。-W posix 打開兼容模式。但有如下限制，不識別：\x、函數關鍵字、func、換碼序列以及當fs是一個空格時，將新行做爲一個域分隔符；操做符**和**=不能代替^和^=；fflush無效。-W re-interval or --re-inerval 容許間隔正則表達式的使用，參考(grep中的Posix字符類)，如括號表達式[[:alpha:]]。-W source program-text or --source program-text 使用program-text做爲源代碼，可與-f命令混用。-W version or --version 打印bug報告信息的版本。3. 模式和操做awk腳本是由模式和操做組成的： pattern {action} 如$ awk '/root/' test，或$ awk '$3 < 100' test。二者是可選的，若是沒有模式，則action應用到所有記錄，若是沒有action，則輸出匹配所有記錄。默認狀況下，每個輸入行都是一條記錄，但用戶可經過RS變量指定不一樣的分隔符進行分隔。3.1. 模式模式能夠是如下任意一個： /正則表達式/：使用通配符的擴展集。關係表達式：能夠用下面運算符表中的關係運算符進行操做，能夠是字符串或數字的比較，如$2>%1選擇第二個字段比第一個字段長的行。模式匹配表達式：用運算符~(匹配)和~!(不匹配)。模式，模式：指定一個行的範圍。該語法不能包括BEGIN和END模式。 BEGIN：讓用戶指定在第一條輸入記錄被處理以前所發生的動做，一般可在這裏設置全局變量。 END：讓用戶在最後一條輸入記錄被讀取以後發生的動做。3.2. 操做操做由一人或多個命令、函數、表達式組成，之間由換行符或分號隔開，並位於大括號內。主要有四部份：變量或數組賦值輸出命令內置函數控制流命令4. awk的環境變量Table 1. awk的環境變量變量描述$n 當前記錄的第n個字段，字段間由FS分隔。$0 完整的輸入記錄。ARGC 命令行參數的數目。ARGIND 命令行中當前文件的位置(從0開始算)。ARGV 包含命令行參數的數組。CONVFMT 數字轉換格式(默認值爲%.6g)ENVIRON 環境變量關聯數組。ERRNO 最後一個系統錯誤的描述。FIELDWIDTHS 字段寬度列表(用空格鍵分隔)。FILENAME 當前文件名。FNR 同NR，但相對於當前文件。FS 字段分隔符(默認是任何空格)。IGNORECASE 若是爲真，則進行忽略大小寫的匹配。NF 當前記錄中的字段數。NR 當前記錄數。OFMT 數字的輸出格式(默認值是%.6g)。OFS 輸出字段分隔符(默認值是一個空格)。ORS 輸出記錄分隔符(默認值是一個換行符)。RLENGTH 由match函數所匹配的字符串的長度。RS 記錄分隔符(默認是一個換行符)。RSTART 由match函數所匹配的字符串的第一個位置。SUBSEP 數組下標分隔符(默認值是\034)。5. awk運算符Table 2. 運算符運算符描述= += -= *= /= %= ^= **= 賦值?: C條件表達式|| 邏輯或&& 邏輯與~ ~! 匹配正則表達式和不匹配正則表達式< <= > >= != == 關係運算符空格鏈接+ - 加，減* / & 乘，除與求餘+ - ! 一元加，減和邏輯非^ *** 求冪++ -- 增長或減小，做爲前綴或後綴$ 字段引用in 數組成員6. 記錄和域6.1. 記錄awk把每個以換行符結束的行稱爲一個記錄。記錄分隔符：默認的輸入和輸出的分隔符都是回車，保存在內建變量ORS和RS中。$0變量：它指的是整條記錄。如$ awk '{print $0}' test將輸出test文件中的全部記錄。變量NR：一個計數器，每處理完一條記錄，NR的值就增長1。如$ awk '{print NR,$0}' test將輸出test文件中全部記錄，並在記錄前顯示記錄號。6.2. 域記錄中每一個單詞稱作「域」，默認狀況下以空格或tab分隔。awk可跟蹤域的個數，並在內建變量NF中保存該值。如$ awk '{print $1,$3}' test將打印test文件中第一和第三個以空格分開的列(域)。6.3. 域分隔符內建變量FS保存輸入域分隔符的值，默認是空格或tab。咱們能夠經過-F命令行選項修改FS的值。如$ awk -F: '{print $1,$5}' test將打印以冒號爲分隔符的第一，第五列的內容。能夠同時使用多個域分隔符，這時應該把分隔符寫成放到方括號中，如$awk -F'[:\t]' '{print $1,$3}' test，表示以空格、冒號和tab做爲分隔符。輸出域的分隔符默認是一個空格，保存在OFS中。如$ awk -F: '{print $1,$5}' test，$1和$5間的逗號就是OFS的值。7. gawk專用正則表達式元字符通常通用的元字符集就不講了，可參考個人Sed和Grep學習筆記。如下幾個是gawk專用的，不適合unix版本的awk。\Y 匹配一個單詞開頭或者末尾的空字符串。\B 匹配單詞內的空字符串。\< 匹配一個單詞的開頭的空字符串，錨定開始。\> 匹配一個單詞的末尾的空字符串，錨定末尾。\w 匹配一個字母數字組成的單詞。\W 匹配一個非字母數字組成的單詞。\‘ 匹配字符串開頭的一個空字符串。\' 匹配字符串末尾的一個空字符串。8. POSIX字符集可參考個人Grep學習筆記9. 匹配操做符(~)用來在記錄或者域內匹配正則表達式。如$ awk '$1 ~/^root/' test將顯示test文件第一列中以root開頭的行。10. 比較表達式conditional expression1 ? expression2: expression3，例如：$ awk '{max = {$1 > $3} ? $1: $3: print max}' test。若是第一個域大於第三個域，$1就賦值給max，不然$3就賦值給max。$ awk '$1 + $2 < 100' test。若是第一和第二個域相加大於100，則打印這些行。$ awk '$1 > 5 && $2 < 10' test,若是第一個域大於5，而且第二個域小於10，則打印這些行。11. 範圍模板範圍模板匹配從第一個模板的第一次出現到第二個模板的第一次出現之間全部行。若是有一個模板沒出現，則匹配到開頭或末尾。如$ awk '/root/,/mysql/' test將顯示root第一次出現到mysql第一次出現之間的全部行。12. 一個驗證passwd文件有效性的例子1$ cat /etc/passwd | awk -F: '\2NF != 7{\3printf("line %d,does not have 7 fields:%s\n",NR,$0)}\4$1 !~ /[A-Za-z0-9]/{printf("line %d,non alpha and numeric user id:%d: %s\n,NR,$0)}\5$2 == "*" {printf("line %d, no password: %s\n",NR,$0)}'1 cat把結果輸出給awk，awk把域之間的分隔符設爲冒號。2 若是域的數量(NF)不等於7，就執行下面的程序。3 printf打印字符串"line ?? does not have 7 fields"，並顯示該條記錄。4 若是第一個域沒有包含任何字母和數字，printf打印「no alpha and numeric user id" ，並顯示記錄數和記錄。5 若是第二個域是一個星號，就打印字符串「no passwd」，緊跟着顯示記錄數和記錄自己。13. 幾個實例 $ awk '{print $3}' test-----截取第三域(列)的內容。 $ awk '/^(no|so)/' test-----打印全部以模式no或so開頭的行。 $ awk '/^[ns]/{print $1}' test-----若是記錄以n或s開頭，就打印這個記錄。 $ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----若是第一個域以兩個數字結束就打印這個記錄。 $ awk '$1 == 100 || $2 < 50' test-----若是第一個或等於100或者第二個域小於50，則打印該行。 $ awk '$1 != 10' test-----若是第一個域不等於10就打印該行。 $ awk '/test/{print $1 + 10}' test-----若是記錄包含正則表達式test，則第一個域加10並打印出來。 $ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----若是第一個域大於5則打印問號後面的表達式值，不然打印冒號後面的表達式值。 $ awk '/^root/,/^mysql/' test----打印以正則表達式root開頭的記錄到以正則表達式mysql開頭的記錄範圍內的全部記錄。若是找到一個新的正則表達式root開頭的記錄，則繼續打印直到下一個以正則表達式mysql開頭的記錄爲止，或到文件末尾。14. awk編程14.1. 變量在awk中，變量不須要定義就能夠直接使用，變量類型能夠是數字或字符串。賦值格式：Variable = expression，如$ awk '$1 ~/test/{count = $2 + $3; print count}' test,上式的做用是,awk先掃描第一個域，一旦test匹配，就把第二個域的值加上第三個域的值，並把結果賦值給變量count，最後打印出來。 awk能夠在命令行中給變量賦值，而後將這個變量傳輸給awk腳本。如$ awk -F: -f awkscript month=4 year=2004 test，上式的month和year都是自定義變量，分別被賦值爲4和2004。在awk腳本中，這些變量使用起來就象是在腳本中創建的同樣。注意，若是參數前面出現test，那麼在BEGIN語句中的變量就不能被使用。域變量也可被賦值和修改，如$ awk '{$2 = 100 + $1; print }' test,上式表示，若是第二個域不存在，awk將計算表達式100加$1的值，並將其賦值給$2，若是第二個域存在，則用表達式的值覆蓋$2原來的值。再例如：$ awk '$1 == "root"{$1 ="test";print}' test，若是第一個域的值是「root」，則把它賦值爲「test」，注意，字符串必定要用雙引號。內建變量的使用。變量列表在前面已列出，如今舉個例子說明一下。$ awk -F: '{IGNORECASE=1; $1 == "MARY"{print NR,$1,$2,$NF}'test，把IGNORECASE設爲1表明忽略大小寫，打印第一個域是mary的記錄數、第一個域、第二個域和最後一個域。14.2. BEGIN模塊BEGIN模塊後緊跟着動做塊，這個動做塊在awk處理任何輸入文件以前執行。因此它能夠在沒有任何輸入的狀況下進行測試。它一般用來改變內建變量的值，如OFS,RS和FS等，以及打印標題。如：$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3} test。上式表示，在處理輸入文件之前，域分隔符(FS)被設爲冒號，輸出文件分隔符(OFS)被設置爲製表符，輸出記錄分隔符(ORS)被設置爲兩個換行符。$ awk 'BEGIN{print "TITLE TEST"}只打印標題。14.3. END模塊END不匹配任何的輸入文件，可是執行動做塊中的全部動做，它在整個輸入文件處理完成後被執行。如$ awk 'END{print "The number of records is" NR}' test，上式將打印全部被處理的記錄數。14.4. 重定向和管道 awk可以使用shell的重定向符進行重定向輸出，如：$ awk '$1 = 100 {print $1 > "output_file" }' test。上式表示若是第一個域的值等於100，則把它輸出到output_file中。也能夠用>>來重定向輸出，但不清空文件，只作追加操做。輸出重定向需用到getline函數。getline從標準輸入、管道或者當前正在處理的文件以外的其餘輸入文件得到輸入。它負責從輸入得到下一行的內容，並給NF,NR和FNR等內建變量賦值。若是獲得一條記錄，getline函數返回1，若是到達文件的末尾就返回0，若是出現錯誤，例如打開文件失敗，就返回-1。如： $ awk 'BEGIN{ "date" | getline d; print d}' test。執行linux的date命令，並經過管道輸出給getline，而後再把輸出賦值給自定義變量d，並打印它。 $ awk 'BEGIN{"date" | getline d; split(d,mon); print mon[2]}' test。執行shell的date命令，並經過管道輸出給getline，而後getline從管道中讀取並將輸入賦值給d，split函數把變量d轉化成數組mon，而後打印數組mon的第二個元素。 $ awk 'BEGIN{while( "ls" | getline) print}'，命令ls的輸出傳遞給geline做爲輸入，循環使getline從ls的輸出中讀取一行，並把它打印到屏幕。這裏沒有輸入文件，由於BEGIN塊在打開輸入文件前執行，因此能夠忽略輸入文件。 $ awk 'BEGIN{printf "What is your name?"; getline name < "/dev/tty" } $1 ~name {print "Found" name on line ", NR "."} END{print "See you," name "."} test。在屏幕上打印」What is your name?",並等待用戶應答。當一行輸入完畢後，getline函數從終端接收該行輸入，並把它儲存在自定義變量name中。若是第一個域匹配變量name的值，print函數就被執行，END塊打印See you和name的值。 $ awk 'BEGIN{while (getline < "/etc/passwd" > 0) lc++; print lc}'。awk將逐行讀取文件/etc/passwd的內容，在到達文件末尾前，計數器lc一直增長，當到末尾時，打印lc的值。注意，若是文件不存在，getline返回-1，若是到達文件的末尾就返回0，若是讀到一行，就返回1，因此命令 while (getline < "/etc/passwd")在文件不存在的狀況下將陷入無限循環，由於返回-1表示邏輯真。能夠在awk中打開一個管道，且同一時刻只能有一個管道存在。經過close()可關閉管道。如：$ awk '{print $1, $2 | "sort" }' test END {close("sort")}。awd把print語句的輸出經過管道做爲linux命令sort的輸入,END塊執行關閉管道操做。 system函數能夠在awk中執行linux的命令。如：$ awk 'BEGIN{system("clear")'。 fflush函數用以刷新輸出緩衝區，若是沒有參數，就刷新標準輸出的緩衝區，若是以空字符串爲參數，如fflush(""),則刷新全部文件和管道的輸出緩衝區。14.5. 條件語句awk中的條件語句是從C語言中借鑑過來的，可控制程序的流程。14.5.1. if語句格式： {if (expression){ statement; statement; ... } }$ awk '{if ($1 <$2) print $2 "too high"}' test。若是第一個域小於第二個域則打印。$ awk '{if ($1 < $2) {count++; print "ok"}}' test.若是第一個域小於第二個域，則count加一，並打印ok。14.5.2. if/else語句，用於雙重判斷。格式： {if (expression){ statement; statement; ... } else{ statement; statement; ... } }$ awk '{if ($1 > 100) print $1 "bad" ; else print "ok"}' test。若是$1大於100則打印$1 bad,不然打印ok。$ awk '{if ($1 > 100){ count++; print $1} else {count--; print $2}' test。若是$1大於100，則count加一，並打印$1，不然count減一，並打印$1。14.5.3. if/else else if語句，用於多重判斷。格式： {if (expression){ statement; statement; ... } else if (expression){ statement; statement; ... } else if (expression){ statement; statement; ... } else { statement; statement; ... } }14.6. 循環 awk有三種循環:while循環；for循環；special for循環。 $ awk '{ i = 1; while ( i <= NF ) { print NF,$i; i++}}' test。變量的初始值爲1，若i小於可等於NF(記錄中域的個數),則執行打印語句，且i增長1。直到i的值大於NF. $ awk '{for (i = 1; i<NF; i++) print NF,$i}' test。做用同上。 breadkcontinue語句。break用於在知足條件的狀況下跳出循環；continue用於在知足條件的狀況下忽略後面的語句，直接返回循環的頂端。如： {for ( x=3; x<=NF; x++) if ($x<0){print "Bottomed out!"; break}} {for ( x=3; x<=NF; x++) if ($x==0){print "Get next item"; continue}} next語句從輸入文件中讀取一行，而後從頭開始執行awk腳本。如： {if ($1 ~/test/){next} else {print} } exit語句用於結束awk程序，但不會略過END塊。退出狀態爲0表明成功，非零值表示出錯。14.7. 數組awk中的數組的下標能夠是數字和字母，稱爲關聯數組。14.7.1. 下標與關聯數組用變量做爲數組下標。如：$ awk {name[x++]=$2};END{for(i=0;i<NR;i++) print i,name[i]}' test。數組name中的下標是一個自定義變量x，awk初始化x的值爲0，在每次使用後增長1。第二個域的值被賦給name數組的各個元素。在END模塊中，for循環被用於循環整個數組，從下標爲0的元素開始，打印那些存儲在數組中的值。由於下標是關健字，因此它不必定從0開始，能夠從任何值開始。 special for循環用於讀取關聯數組中的元素。格式以下： {for (item in arrayname){ print arrayname[item] } } $ awk '/^tom/{name[NR]=$1}; END{for(i in name){print name[i]}}' test。打印有值的數組元素。打印的順序是隨機的。用字符串做爲下標。如：count["test"] 用域值做爲數組的下標。一種新的for循環方式，for (index_value in array) statement。如:$ awk '{count[$1]++} END{for(name in count) print name,count[name]}' test。該語句將打印$1中字符串出現的次數。它首先以第一個域做數組count的下標，第一個域變化，索引就變化。 delete函數用於刪除數組元素。如：$ awk '{line[x++]=$1} END{for(x in line) delete(line[x])}' test。分配給數組line的是第一個域的值，全部記錄處理完成後，special for循環將刪除每個元素。14.8. awk的內建函數14.8.1. 字符串函數 sub函數匹配記錄中最大、最靠左邊的子字符串的正則表達式，並用替換字符串替換這些字符串。若是沒有指定目標字符串就默認使用整個記錄。替換隻發生在第一次匹配的時候。格式以下： sub (regular expression, substitution string): sub (regular expression, substitution string, target string) 實例： $ awk '{ sub(/test/, "mytest"); print }' testfile $ awk '{ sub(/test/, "mytest"); $1}; print }' testfile 第一個例子在整個記錄中匹配，替換隻發生在第一次匹配發生的時候。如要在整個文件中進行匹配須要用到gsub 第二個例子在整個記錄的第一個域中進行匹配，替換隻發生在第一次匹配發生的時候。 gsub函數做用如sub，但它在整個文檔中進行匹配。格式以下： gsub (regular expression, substitution string) gsub (regular expression, substitution string, target string) 實例： $ awk '{ gsub(/test/, "mytest"); print }' testfile $ awk '{ gsub(/test/, "mytest"), $1 }; print }' testfile 第一個例子在整個文檔中匹配test，匹配的都被替換成mytest。第二個例子在整個文檔的第一個域中匹配，全部匹配的都被替換成mytest。 index函數返回子字符串第一次被匹配的位置，偏移量從位置1開始。格式以下： index(string, substring) 實例： $ awk '{ print index("test", "mytest") }' testfile 實例返回test在mytest的位置，結果應該是3。 length函數返回記錄的字符數。格式以下： length( string ) length 實例： $ awk '{ print length( "test" ) }' $ awk '{ print length }' testfile 第一個實例返回test字符串的長度。第二個實例返回testfile文件中第條記錄的字符數。 substr函數返回從位置1開始的子字符串，若是指定長度超過實際長度，就返回整個字符串。格式以下： substr( string, starting position ) substr( string, starting position, length of string ) 實例： $ awk '{ print substr( "hello world", 7,11 ) }' 上例截取了world子字符串。 match函數返回在字符串中正則表達式位置的索引，若是找不到指定的正則表達式則返回0。match函數會設置內建變量RSTART爲字符串中子字符串的開始位置，RLENGTH爲到子字符串末尾的字符個數。substr可利於這些變量來截取字符串。函數格式以下： match( string, regular expression ) 實例： $ awk '{start=match("this is a test",/[a-z]+$/); print start}' $ awk '{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }' 第一個實例打印以連續小寫字符結尾的開始位置，這裏是11。第二個實例還打印RSTART和RLENGTH變量，這裏是11(start)，11(RSTART)，4(RLENGTH)。 toupper和tolower函數可用於字符串大小間的轉換，該功能只在gawk中有效。格式以下： toupper( string ) tolower( string ) 實例： $ awk '{ print toupper("test"), tolower("TEST") }' split函數可按給定的分隔符把字符串分割爲一個數組。若是分隔符沒提供，則按當前FS值進行分割。格式以下： split( string, array, field separator ) split( string, array ) 實例： $ awk '{ split( "20:18:00", time, ":" ); print time[2] }' 上例把時間按冒號分割到time數組內，並顯示第二個數組元素18。14.8.2. 時間函數 systime函數返回從1970年1月1日開始到當前時間(不計閏年)的整秒數。格式以下： systime() 實例： $ awk '{ now = systime(); print now }' strftime函數使用C庫中的strftime函數格式化時間。格式以下： systime( [format specification][,timestamp] ) Table 3. 日期和時間格式說明符格式描述 %a 星期幾的縮寫(Sun) %A 星期幾的完整寫法(Sunday) %b 月名的縮寫(Oct) %B 月名的完整寫法(October) %c 本地日期和時間 %d 十進制日期 %D 日期 08/20/99 %e 日期，若是隻有一位會補上一個空格 %H 用十進制表示24小時格式的小時 %I 用十進制表示12小時格式的小時 %j 從1月1日起一年中的第幾天 %m 十進制表示的月份 %M 十進制表示的分鐘 %p 12小時表示法(AM/PM) %S 十進制表示的秒 %U 十進制表示的一年中的第幾個星期(星期天做爲一個星期的開始) %w 十進制表示的星期幾(星期天是0) %W 十進制表示的一年中的第幾個星期(星期一做爲一個星期的開始) %x 從新設置本地日期(08/20/99) %X 從新設置本地時間(12：00：00) %y 兩位數字表示的年(99) %Y 當前月份 %Z 時區(PDT) %% 百分號(%) 實例： $ awk '{ now=strftime( "%D", systime() ); print now }' $ awk '{ now=strftime("%m/%d/%y"); print now }'14.8.3. 內建數學函數Table 4.函數名稱返回值atan2(x,y) y,x範圍內的餘切cos(x) 餘弦函數exp(x) 求冪int(x) 取整log(x) 天然對數rand() 隨機數sin(x) 正弦sqrt(x) 平方根srand(x) x是rand()函數的種子int(x) 取整，過程沒有舍入rand() 產生一個大於等於0而小於1的隨機數14.8.4. 自定義函數在awk中還可自定義函數，格式以下： function name ( parameter, parameter, parameter, ... ) { statements return expression # the return statement and expression are optional }15. How-to 如何把一行豎排的數據轉換成橫排？ awk '{printf("%s,",$1)}' filenameuniqhttp://baike.baidu.com/view/1374849.htmuniq　　uniq 命令　　文字　　uniq是LINUX命令　　用途　　報告或刪除文件中重複的行。　　語法　　uniq [ -c | -d | -u ] [ -f Fields ] [ -s Characters ] [ -Fields ] [ +Characters ] [ InFile [ OutFile ] ]　　描述　　uniq 命令刪除文件中的重複行。 uniq 命令讀取由 InFile 參數指定的標準輸入或文件。該命令首先比較相鄰的行，而後除去第二行和該行的後續副本。重複的行必定相鄰。（在發出 uniq 命令以前，請使用 sort 命令使全部重複行相鄰。）最後，uniq 命令將最終單獨的行寫入標準輸出或由 OutFile 參數指定的文件。InFile 和 OutFile 參數必須指定不一樣的文件。　　輸入文件必須是文本文件。文本文件是包含組織在一行或多行中的字符的文件。這些行的長度不能超出 2048 個字節（包含全部換行字符），而且其中不能包含空字符。　　缺省狀況下，uniq 命令比較全部行。若是指定了-f Fields 或 -Fields 標誌, uniq 命令忽略由 Fields 變量指定的字段數目。 field 是一個字符串，用一個或多個 <空格 > 字符將它與其它字符串分隔開。若是指定了 -s Characters 或 -Characters 標誌, uniq 命令忽略由 Characters 變量指定的字段數目。爲 Fields 和 Characters 變量指定的值必須是正的十進制整數。　　當前本地語言環境決定了 -f 標誌使用的 <空白> 字符以及 -s 標誌如何將字節解釋成字符。　　若是執行成功，uniq 命令退出，返回值 0。不然，命令退出返回值大於 0。　　標誌　　-c 在輸出行前面加上每行在輸入文件中出現的次數。　　-d 僅顯示重複行。　　-f Fields 忽略由 Fields 變量指定的字段數目。若是 Fields 變量的值超過輸入行中的字段數目, uniq 命令用空字符串進行比較。這個標誌和 -Fields 標誌是等價的。　　-u 僅顯示不重複的行。　　-s Characters 忽略由 Characters 變量指定的字符的數目。若是 Characters 變量的值超過輸入行中的字符的數目, uniq 用空字符串進行比較。若是同時指定 -f 和 -s 標誌, uniq 命令忽略由 -s Characters 標誌指定的字符的數目，而從由 -f Fields 標誌指定的字段後開始。這個標誌和 +Characters 標誌是等價的。　　-Fields 忽略由 Fields 變量指定的字段數目。這個標誌和 -f Fields 標誌是等價的。　　+Characters 忽略由 Characters 變量指定的字符的數目。若是同時指定 - Fields 和 +Characters 標誌, uniq 命令忽略由 +Characters 標誌指定的字符數目，並從由 -Fields 標誌指定的字段後開始。這個標誌和 -s Characters 標誌是等價的。　　退出狀態　　該命令返回如下退出值：　　0 命令運行成功。　　>0 發生錯誤。　　示例　　要刪除名爲 fruit 文件中的重複行並將其保存到一個名爲 newfruit 的文件中，輸入：　　uniq fruit newfruit　　若是 fruit 文件包含下列行:　　apples　　apples　　peaches　　pears　　bananas　　cherries　　cherries　　則在您運行uniq 命令後 newfruit 文件將包含下列行:　　apples　　peaches　　pears　　bananas　　cherries　　文件　　/usr/bin/uniq 包含 uniq 命令。