【Linux工具篇】文本分析工具awk

時間 2019-12-04

原文原文鏈接

簡介

awk是一個強大的文本分析工具，相對於grep的查找，sed的編輯，awk在其對數據分析並生成報告時，顯得尤其強大。簡單來講awk就是把文件逐行的讀入，以空格爲默認分隔符將每行切片，切開的部分再進行各類分析處理。php

awk有3個不一樣版本: awk、nawk和gawk，未做特別說明，通常指gawk，gawk 是 AWK 的 GNU 版本。html

awk其名稱得自於它的創始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母。實際上 AWK 的確擁有本身的語言： AWK 程序設計語言，三位建立者已將它正式定義爲「樣式掃描和處理語言」。它容許您建立簡短的程序，這些程序讀取輸入文件、爲數據排序、處理數據、對輸入執行計算以及生成報表，還有無數其餘的功能。正則表達式

使用方法

awk '{pattern + action}' {filenames}

儘管操做可能會很複雜，但語法老是這樣，其中 pattern 表示 AWK 在數據中查找的內容，而 action 是在找到匹配內容時所執行的一系列命令。花括號（{}）不須要在程序中始終出現，但它們用於根據特定的模式對一系列指令進行分組。 pattern就是要表示的正則表達式，用斜槓括起來。shell

awk語言的最基本功能是在文件或者字符串中基於指定規則瀏覽和抽取信息，awk抽取信息後，才能進行其餘文本操做。完整的awk腳本一般用來格式化文本文件中的信息。express

一般，awk是以文件的一行爲處理單位的。awk每接收文件的一行，而後執行相應的命令，來處理文本。編程

調用awk的方式

1.命令行方式api

awk [-F  field-separator]  'commands'  input-file(s)

其中，commands 是真正awk命令，[-F域分隔符]是可選的。 input-file(s) 是待處理的文件。
在awk中，文件的每一行中，由域分隔符分開的每一項稱爲一個域。一般，在不指名-F域分隔符的狀況下，默認的域分隔符是空格。數組

2.shell腳本方式安全

將全部的awk命令插入一個文件，並使awk程序可執行，而後awk命令解釋器做爲腳本的首行，一遍經過鍵入腳本名稱來調用。
至關於shell腳本首行的：#!/bin/sh
能夠換成：#!/bin/awkbash

3.將全部的awk命令插入一個單獨文件，而後調用：

awk -f awk-script-file input-file(s)

其中，-f選項加載awk-script-file中的awk腳本，input-file(s)跟上面的是同樣的。

入門實例

假設last -n 5的輸出以下

[root@www ~]# last -n 5 # 僅取出前五行
root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in
root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41)
root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48)
dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00)
root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01)

若是隻是顯示最近登陸的5個賬號

#last -n 5 | awk  '{print $1}'
root
root
root
dmtsai
root

awk工做流程是這樣的：讀入有'n'換行符分割的一條記錄，而後將記錄按指定的域分隔符劃分域，填充域，&dollar;0則表示全部域,&dollar;1表示第一個域,&dollar;n表示第n個域。默認域分隔符是"空白鍵" 或 "[tab]鍵",因此&dollar;1表示登陸用戶，&dollar;3表示登陸用戶ip,以此類推。

若是隻是顯示/etc/passwd的帳戶

#cat /etc/passwd |awk  -F ':' '{print $1}'  
root
daemon
bin
sys

若是隻是顯示/etc/passwd的帳戶和帳戶對應的shell,而帳戶與shell之間以tab鍵分割

#cat /etc/passwd |awk  -F ':'  '{print $1"\t"$7}'
root    /bin/bash
daemon  /bin/sh
bin     /bin/sh
sys     /bin/sh

若是隻是顯示/etc/passwd的帳戶和帳戶對應的shell,而帳戶與shell之間以逗號分割,並且在全部行添加列名name,shell,在最後一行添加"blue,/bin/nosh"。

cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}'
name,shell
root,/bin/bash
daemon,/bin/sh
bin,/bin/sh
sys,/bin/sh
....
blue,/bin/nosh

awk工做流程是這樣的：先執行BEGING，而後讀取文件，讀入有/n換行符分割的一條記錄，而後將記錄按指定的域分隔符劃分域，填充域，&dollar;0則表示全部域,&dollar;1表示第一個域,&dollar;n表示第n個域,隨後開始執行模式所對應的動做action。接着開始讀入第二條記錄······直到全部的記錄都讀完，最後執行END操做。

搜索/etc/passwd有root關鍵字的全部行

#awk -F: '/root/' /etc/passwd
root:x:0:0:root:/root:/bin/bash

這種是pattern的使用示例，匹配了pattern(這裏是root)的行纔會執行action(沒有指定action，默認輸出每行的內容)。
搜索支持正則，例如找root開頭的:awk -F: '/^root/' /etc/passwd

搜索/etc/passwd有root關鍵字的全部行，並顯示對應的shell

# awk -F: '/root/{print $7}' /etc/passwd             
/bin/bash

這裏指定了action{print &dollar;7}

awk 'length($0)>80 {print NR}' myfile  # 該命令行將顯示文本myfile中全部超過80個字符的行號，在這裏，用$0表示整個記錄（行），同時，內置變量NR不使用標誌符'$'。


# 假設要對UNIX中的用戶進行安全性檢查，方法是考察/etc下的passwd文件，檢查其中的passwd字段（第二字段）是否爲"*"，如不爲"*"，則表示該用戶沒有設置密碼，顯示出這些用戶名（第一字段）。咱們能夠用以下語句實現：
awk -F: '$2=="" {printf("%s no password!",$1)' /etc/passwd

內置變量

awk有許多內置變量用來設置環境信息，這些變量能夠被改變，下面給出了最經常使用的一些變量。

ARGC               命令行參數個數
ARGV               命令行參數排列
ENVIRON            支持隊列中系統環境變量的使用
FILENAME           awk瀏覽的文件名
FNR                瀏覽文件的記錄數
FS                 設置輸入域分隔符，等價於命令行 -F選項
NF                 瀏覽記錄的域的個數（列數）
NR                 已讀的記錄數（行數）
OFS                輸出域分隔符
ORS                輸出記錄分隔符
RS                 控制記錄分隔符

此外,&dollar;0變量是指整條記錄。&dollar;1表示當前行的第一個域,&dollar;2表示當前行的第二個域,......以此類推。

awk '/api\.php/{print}' log_file #在缺省格式下模式是$0,即打印出全條

awk '/api\.php/' log_file # 甚至還能夠忽略action部分,默認是print打印

統計/etc/passwd:文件名，每行的行號，每行的列數，對應的完整行內容:

#awk  -F ':'  '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd
filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash
filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh
filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh
filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh

使用printf替代print,可讓代碼更加簡潔，易讀

awk  -F ':'  '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd

print和printf

awk中同時提供了print和printf兩種打印輸出的函數。

其中print函數的參數能夠是變量、數值或者字符串。字符串必須用雙引號引用，參數用逗號分隔。若是沒有逗號，參數就串聯在一塊兒而沒法區分。這裏，逗號的做用與輸出文件的分隔符的做用是同樣的，只是後者是空格而已。

printf函數，其用法和c語言中printf基本類似,能夠格式化字符串,輸出複雜時，printf更加好用，代碼更易懂。

head -10 log_file | awk '{printf "%03d %s\n",NR,$1}' 
# "%03d %s\n" 是格式,其中NR替換%03成爲前導0的三位數字,$1替換%s成爲字符串

001 220.181.108.180
002 220.181.108.180
003 220.181.108.150
004 123.125.71.45
005 220.181.108.142
006 220.181.108.162
007 151.80.31.110
008 220.181.108.82
009 220.181.108.185
010 151.80.31.112

awk編程

變量和賦值

除了awk的內置變量，awk還能夠自定義變量。
下面統計/etc/passwd的帳戶人數

awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
......
user count is  40

count是自定義變量。以前的action{}裏都是隻有一個print,其實print只是一個語句，而action{}能夠有多個語句，以;號隔開。

這裏沒有初始化count，雖然默認是0，可是穩當的作法仍是初始化爲0:

awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd
[start]user count is  0
root:x:0:0:root:/root:/bin/bash
...
[end]user count is  40

統計某個文件夾下的文件佔用的字節數

ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
[end]size is  8657198

# 以兆來顯示
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' 
[end]size is  8.25889 M

BEGIN和END

在awk中兩個特別的表達式，BEGIN和END，這二者均可用於pattern中（參考前面的awk語法），提供BEGIN和END的做用是給程序賦予初始狀態和在程序結束以後執行一些掃尾的工做。任何在BEGIN以後列出的操做（在{}內）將在awk開始掃描輸入以前執行，而END以後列出的操做將在掃描徹底部的輸入以後執行。所以，一般使用BEGIN來顯示變量和預置（初始化）變量，使用END來輸出最終結果。

awk 
>'BEGIN { FS=":";print "統計銷售金額";total=0} 
>{print $3;total=total+$3;} 
>END {printf "銷售金額總計：%.2f",total}'  
# 注：>是shell提供的第二提示符，如要在shell程序awk語句和awk語言中換行，則需在行尾加反斜槓
# 在這裏，BEGIN預置了內部變量FS（字段分隔符）和自定義變量total,同時在掃描以前顯示出輸出行頭。而END則在掃描完成後打印出總合計。

條件語句

if (expression) {
    statement;
    statement;
    ... ...
}

if (expression) {
    statement;
} else {
    statement2;
}

if (expression) {
    statement1;
} else if (expression1) {
    statement2;
} else {
    statement3;
}

統計某個文件夾下的文件佔用的字節數,過濾4096大小的文件(通常都是文件夾):

ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' 
[end]size is  8.22339 M

循環語句

awk中的循環語句一樣借鑑於C語言，支持while、do/while、for、break、continue，這些關鍵字的語義和C語言中的語義徹底相同。

awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd
0 root
1 daemon
2 bin
3 sys
4 sync
5 games
......

先把用戶名放在name的這個數組裏面,執行完awk的隱式迭代後,最後的END部分經過for循環輸出;

更多請參考: http://www.gnu.org/software/g...