awk sed grep 詳解

時間 2019-11-12

標籤 awk sed grep 詳解欄目 Linux 简体版

原文原文鏈接

Linux的文本處理工具淺談mysql

awk

【功能說明】react

用於文本處理的語言（取行，過濾），支持正則

NR表明行數，$n取某一列，$NF最後一列

NR==20,NR==30 從20行到30行

FS豎着切，列的分隔符

RS橫着切，行的分隔符

【語法格式】正則表達式

awk   [–F]   [「[分隔符]」]   [’{print$1，$NF}’]     [目標文件]
awk 'BEGIN{FS="[列分隔符]+";RS="[行分隔符]+";print "-GEGIN-"} NR==n{動做} END{print "-END-"}' xxx.txt

【內置變量】sql

$n                    當前記錄的第n個字段，字段間由 FS分隔。
$0                    完整的輸入記錄。
ARGC              命 令行參數的數目。
ARGIND         命令行中當前文件的位置(從0開始算)。
ARGV             包 含命令行參數的數組。
CONVFMT      數字轉換格式(默認值爲%.6g)
ENVIRON       環 境變量關聯數組。
ERRNO            最後一個系統錯誤的描述。
FIELDWIDTHS         字 段寬度列表(用空格鍵分隔)。
FILENAME               當前文件名。
FNR                        同 NR，但相對於當前文件。
FS                          字段分隔符(默認是任何空格)。
IGNORECASE         如 果爲真，則進行忽略大小寫的匹配。
NF                   當前記錄中的字段數。
NR                   當 前記錄數。
OFMT              數字的輸出格式(默認值是%.6g)。
OFS                 輸 出字段分隔符(默認值是一個空格)。
ORS                 輸出記錄分隔符(默認值是一個換行符)。
RLENGTH         由 match函數所匹配的字符串的長度。
RS                 記錄分隔符(默認是一個換行符)。
RSTART           由 match函數所匹配的字符串的第一個位置。
SUBSEP           數組下標分隔符(默認值是\034)。

【運算符】數據庫

= += -= *= /= %= ^= **=        賦值
?:                 C條件表達式
||                 邏 輯或
&&             邏輯與
~ ~!             匹 配正則表達式和不匹配正則表達式
< <= > >= != ==       關 系運算符
空格          鏈接
+ -            加，減
* / &          乘，除與求餘
+ - !          一元加，減和邏輯非
^ ***        求冪
++ --        增長或減小，做爲前綴或後綴
$              字 段引用
in             數組成員

【字符串函數】

sub          匹配記錄中最大、最靠左邊的子字符串的正則表達式，並用替換字符串替換這些字符串。若是沒有指定目標字符串就默認使用整個記錄。替換隻發生在第一次匹配的 時候
gsub        整個文檔中進行匹配
index       返回子字符串第一次被匹配的位置，偏移量從位置1開始
substr      返回從位置1開始的子字符串，若是指定長度超過實際長度，就返回整個字符串
split         可按給定的分隔符把字符串分割爲一個數組。若是分隔符沒提供，則按當前FS值進行分割
length      返回記錄的字符數
match       返回在字符串中正則表達式位置的索引，若是找不到指定的正則表達式則返回0。match函數會設置內建變量RSTART爲字符串中子字符串的開始位 置，RLENGTH爲到子字符串末尾的字符個數。substr可利於這些變量來截取字符串
toupper和tolower    可用於字符串大小間的轉換，該功能只在gawk中有效

【字符串函數】

atan2(x,y)    y,x 範圍內的餘切
cos(x)          餘弦函數
exp(x)         求 冪
int(x)           取整
log(x)          天然對 數
rand()         隨機數
sin(x)          正弦
sqrt(x)        平 方根
srand(x)     x是rand()函數的種子
int(x)          取 整，過程沒有舍入
rand()         產生一個大於等於0而小於1的隨機數

【使用範例】c#

一、只查看 ett.txt 文件（共 100 行）內第 20 到第 30 行的內容

awk ‘NR>19&&NR<31’ ett.txt
awk ‘{ if (NR>19&&NR<31) print $0}’ ett.txt

二、給文件內容加行號

awk ‘{print NR,$0}’ /etc/inittab

三、輸出第24行而且加行號

awk ‘NR==24 {print NR,$0}’ /etc/inittab

四、標準寫法

awk -F '[ :]+' 'NR==2{print $(NF-1)}'  /etc/passwd
至關於 awk 'BEGIN{FS="[ :]+"}NR==2{print $(NF-1)}' /etc/passwd
awk 'BEGIN{RS="/"} {print $0}' /etc/passwd

五、以一個或多個/爲行的分割符，打印第二行的第二列，列的分隔符爲默認的空格,並打印行號

awk 'BEGIN{RS="[/]+"} NR==2{print NR,$2}' test

awk支持正則：

六、以：爲分隔符，打印第5列以s開頭的一整行

awk -F ":" '$5~/^s/{print $0}' /etc/passwd

七、以/爲分隔符，匹配倒數第二行的s或者沒有s後面是bin的整行

awk -F "/" '$(NF-1)~/(s|)bin/' /etc/passwd

八、匹配第一列以ssh或者ftp或mysql開頭或者結尾的行

awk '$1~/^(ssh|ftp|mysql)$/{print $1,$2}' /etc/services

九、輸出結果6 0 1 2

echo "6@@@@@@@@@@@@@@@0=============1##############2" |awk -F '[@=#]+'  '{print $1,$2,$3,$4}'

十、

awk 'BEGIN{print "---BEGIN---"} NR==2{print $2} END{print "---END----"}' xxx.conf

　十一、awk統計百分比的問題數組

例一：tomcat

　　日誌樣子舉例以下：
http://youku.com 200
http://youku.com 302
http://youku.com 403
http://youku.com 502
http://baidu.com 302
http://baidu.com 404

現想使用awk命令按域名統計返回碼大於等於400的百分比，假如優酷總共有4行，大於等於400的返回碼有兩行，那佔比就爲50%

awk '{
        count[$1]++; 
        if($2>400)above400[$1]++
    }
    END{
        for(i in count){
            print i, count[i], above400[i]/count[i]
        }
    }' < xxx.txt

例二：bash

統計一個文件的中全部的error的佔比併發

awk  '/error/{err++}END{print err,NR,err/NR*100"%" }' < xxx.txt

十二、關聯數組訪問問題

a.txt和b.txt兩個文件相同的兩個字段（id|money）,輸出a和b文件中相同id而且b文件money值大的一行

cat >>a.txt <<EOF 
1|1
3|3
5|5
7|7
9|9
EOF

cat >>b.txt<<EOF
1|1
2|2
3|30
4|4
5|5
6|6
7|70
8|8
9|9
10|10
EOF

awk -F '|' 'BEGIN{ while(getline < "a.txt") { user_map[$1] = $2; } }
{
    if ($1 in user_map) { if (user_map[$1] < $2) print $0; }
}' b.txt

注意：若是a.txt不存在，getline會返回-1，致使死循環。我之前曾經碰上過由於這個緣由致使程序掛死，因此特別提出來讓你們注意

1三、99乘法表

awk 'BEGIN{for(i=1;i<10;i++){for (j=1;j<=i;j++)printf "%d%s%d%s%d\t",i,"x",j,"=",i*j;print}}'

1四、tomcat併發數

netstat -an|grep 10050|awk '{count[$6]++} END{for (i in count) print(i,count[i])}'

sed

【功能說明】

Sed是Strem Editor(流編輯器)縮寫，是操做、過濾和轉換文本內容的強大工具。經常使用功能有增刪改查，過濾，取行。

參數

-n             #取消默認輸出
-r             #使用擴展正則
-i              #刷到磁盤
-e             #執行多條sed指令
-f              #指令放在文件裏

sed-command

a    追加
i     插入
d    刪除
c    替換指定的行
s    替換每一行匹配到的第一個字符
g   替換每一行的所有
p   輸出
w   另存文件
e   執行bash命令
q   不繼續往下讀取

歸納流程：Sed軟件從文件或管道中讀取一行，處理一行，輸出一行；再讀取一行，再處理一行，再輸出一行……

增刪改查

a 追加文本到指定行後

i 插入文本到指定行前

增

單行增長

sed '2a 106,dandan,CSO' person.txt
sed '2i 106,dandan,CSO' person.txt

多行增長

sed '2a 106,dandan,CSO\n107,bingbing,CCO' person.txt

企業案例1：優化SSH配置（一鍵完成增長若干參數）

在咱們學習系統優化時，有一個優化點：更改ssh服務遠程登陸的配置。主要的操做是在ssh的配置文件加入下面5行文本。(下面參數的具體含義見其餘課程。)

Port 52113
PermitRootLogin no
PermitEmptyPasswords no
UseDNS no
GSSAPIAuthentication no

咱們可使用vi命令編輯這個文本，但這樣就比較麻煩，如今想一條命令增長5行文本到第13行前？

sed -ir '13 i ####Chris-sshd-2016.5.4-youhua######\nPort 52113\nPermitRootLogin no\nPermitEmptyPasswords no\nUseDNS no\nGSSAPIAuthentication no\n#####--end--#######\n' /etc/ssh/sshd_config

地址用逗號分隔的，n1,n2能夠用數字、正則表達式、或兩者的組合表示。

其餘使用例子

10{sed-commands}                          對第10行操做

10,20{sed-commands}                     對10到20行操做,包括第10,20行

10,+20{sed-commands}                  對10到30(10+20)行操做,包括第10,30行

1~2{sed-commands}                       對1,3,5,7,……行操做

10,${sed-commands}                      對10到最後一行($表明最後一行)操做,包括第10行

/oldboy/{sed-commands}               對匹配oldboy的行操做

/oldboy/,/Alex/{sed-commands}    對匹配oldboy的行到匹配Alex的行操做

/oldboy/,${sed-commands}            對匹配oldboy的行到最後一行操做

/oldboy/,10{sed-commands}         對匹配oldboy的行到第10行操做，注意：若是前10行沒有匹配到oldboy，sed軟件會顯示10行之後的匹配oldboy的行，若是有。

1,/Alex/{sed-commands}               對第1行到匹配Alex的行操做

/oldboy/,+2{sed-commands}        對匹配oldboy的行到其後的2行操做

刪

d 刪除指定的行

sed 'd' person.txt                                       #刪除所有

sed '2d' person.txt                                     #刪除第二行

sed '2,5d' person.txt                                  #刪除2到5行

sed '3,$d' person.txt                                  #刪除3到結尾

sed '1~2d' person.txt                                #刪除1,3,5行

sed '1,+2d' person.txt                               #刪除1,2,3

sed '/zhangyao/d' person.txt                    #刪除匹配的zhangyao行

sed '/oldboy/,/Alex/d' person.txt             #刪除匹配oldboy到Alex行

sed '/oldboy/,3d' person.txt                     #刪除從匹配oldboy的3行

企業案例2：打印文件內容但不包含oldboy

sed '/oldboy/d' person.txt                       #刪除包含"oldboy"的行

改

按行替換

c 用新行取代舊行

sed '2c 106,dandan,CSO' person.txt          #替換第2行的內容

文本替換

s：單獨使用，將每一行中第一處匹配的字符串進行替換

g：每一行進行所有替換

-i：修改文件內容

sed軟件替換模型(方框▇被替換成三角▲)

sed -i 's/▇/▲/g' oldboy.log 
sed -i 's#▇#▲#g' oldboy.log

企業案例3：指定行修改配置文件

指定行精確修改配置文件，這樣能夠防止修改多了地方。

sed '3s#0#9#' person.txt

變量替換

x=a
y=b
echo $x $y
sed s#$x#$y#g test.txt

分組替換和\1的使用說明

sed軟件的的功能能夠記住正則表達式的一部分，其中，\1爲第一個記住的模式即第一個小括號中的匹配內容，\2第二記住的模式，即第二個小括號中的匹配內容，sed最多能夠記住9個。

例：echo I am oldboy teacher.若是想保留這一行的單詞oldboy，刪除剩下的部分，使用圓括號標記想保留的部分。

echo I am oldboy teacher. |sed 's#^.*am \([a-z].*\) tea.*$#\1#g'
echo I am oldboy teacher. |sed -r 's#^.*am ([a-z].*) tea.*$#\1#g'
echo I am oldboy teacher. |sed -r 's#I (.*) (.*) teacher.#\1\2#g'

命令說明

思路：用oldboy字符替換I am oldboy teacher.

下面解釋用□代替空格

^.*am□ –>這句的意思是以任意字符開頭到am□爲止，匹配文件中的I am□字符串;
$[a-z].*$□–>這句的外殼就是括號\(\），裏面的[a-z]表示匹配26個字母的任何一個，[a-z].*合起來就是匹配任意多個字符，本題來講就是匹配oldboy字符串，因爲oldboy字符串是須要保留的,所以用括號括起來匹配，後面經過\1來取oldboy字符串。
□tea.*$–>表示以空格tea起始,任意字符結尾，實際就是匹配oldboy字符串後，緊接着的字符串□teacher.;
後面被替換的內容中的\1就是取前面的括號裏的內容了，也就是咱們要的oldboy字符串。
()是擴展正則表達式的元字符，sed軟件默認識別基本正則表達式，想要使用擴展正則須要使用\轉義，即\(\）。
sed使用-r選項則能夠識別擴展正則表達式，此時使用\(\）反而會出錯。

企業案例4：系統開機啓動項優化

chkconfig --list|grep "3:on"|grep -vE "sshd|crond|network|rsyslog|sysstat"|awk '{print $1}'|sed -r 's#^(.*)#chkconfig \1 off#g'|bash
chkconfig --list|grep "3:on"

特殊符號&表明被替換的內容

#→將1到3行的C替換爲--C--

sed '1,3s#C#--&--#g' person.txt 　　　　　　　　#→此處&等於C

企業案例5：批量重命名文件

for i in `seq 5`;do touch stu_102999_${i}_finished.jpg;done 
ls |sed -r 's/(.*)_finished(.*)/mv  &  \1_finish\2/e'

查

p 輸出指定內容，但默認會輸出2次匹配的結果，所以使用n取消默認輸出

按行查詢

sed '2p' person.txt
sed -n '2p' person.txt
sed -n '2,3p' person.txt
sed -n '1~2p' person.txt
sed -n 'p' person.txt

按字符串查詢

sed -n '/CTO/p' person.txt
sed -n '/CTO/,/CFO/p' person.txt

混合查詢

sed -n '2,/CFO/p' person.txt
sed -n '/feixue/,2p' person.txt

#特殊狀況，前兩行沒有匹配到feixue，就向後匹配，若是匹配到feixue就打印此行。

其餘功能

備份功能

sed -i.bak '$a 1111111111' xxx.txt

備份xxx.txt文件爲xxx.txt.bak，修改源文件，最後一行添加111111111

另存功能

sed 's/sb/SB/g w new.txt' xxx.txt

把sb替換成SB的整行輸出到new.txt中

大小寫轉換

\L #所有轉換成小寫

\l #單個轉換成小寫

\U #所有轉換成大寫

\u #單個轉換成大寫

\E #須要和\U和\L一塊兒使用，關閉\U和\L的功能

sed -r 's/(.*),(.*),(.*)/\L\3,\E\1,\U\2/g' xxx.txt

執行多條sed指令

sed -e '3,$d' -e 's#10#01#g' xxx.txt
sed '3,$d; s#10#01#g' xxx.txt

打印不可見字符l

sed -n 'l' xxx.txt

abc替換ABC（一一對應）

tr 'abc' 'ABC' xxx.txt
sed 'y#abc#ABC#' xxx.txt

能夠操做多個文件

sed 'y#abc#ABC#' xxx.txt 222.txt

模擬其餘命令

建立svn庫的時候自動取消#號和修改路徑

sed -i -r '12,13s/# //g' svnserve.conf
sed -i -r '20s/^# (.*)/\1/g' svnserve.conf
sed -i -r '27s/^# (.*)/\1/g' svnserve.conf
sed -i -r '12,13s/^# (.*)/\1/g' svnserve.conf
sed -i -r  '32s/# (.*=)(.*)/\1 \/usr\/svnData\//' svnserve.conf

一條命令執行（加傳參）

SvnPath='zhangzhicheng'
sed -i -r -e '20s/^# (.*)/\1/g' -e '27s/^# (.*)/\1/g' -e '12,13s/^# (.*)/\1/g' -e "32s/# (.*=)(.*)/\1 \/usr\/svnData\/$SvnPath/" svnserve.conf

grep

【功能說明】

三劍客老三。搜索文本，過濾文本字符串 –v取反

【選項說明】

參數選項	解釋說明（帶※的爲重點）
-V	取反，讀出指定的內容以外的內容
-A	打印後面n行的內容
-B	打印前面n行的內容
-C	打印先後各n行的內容
-n	輸出行行號
-E（egrep）	使用擴展正則表達式
-o	只輸出匹配到的結果
-i	忽略大小寫
-a	當grep認爲是二進制文件的時候加-a

【基礎範例】

例子1：已知文件 test.txt 內容爲：

test

liyao

oldboy

請給出輸出 test.txt 文件內容時，不包含 oldboy 字符串的命令。

grep –v oldboy test.txt

例子2：過濾出/etc/services 文件包含 3306 或 1521 兩數據庫端口的行的內容

grep –E 「3306|1521」 /etc/services

例子3：

【技巧例子】

消除文件空行:

grep -v '^$' test.txt
egrep -o "^[^:]+" xxx.txt   　　　　　　#匹配開頭以非：的行，並輸出匹配的內容（-o不是整行輸出）

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

awk sed grep 詳解

awk

sed

增刪改查

增

刪

改

按行替換

文本替換

變量替換

分組替換\( \)和\1的使用說明

特殊符號&表明被替換的內容

查

按行查詢

按字符串查詢

混合查詢

其餘功能

grep