grep、awk、sed文本處理工具

時間 2019-11-11

標籤 grep awk sed 文本處理工具欄目 Linux 简体版

原文原文鏈接

Linux的文本處理工具淺談mysql

awk
【功能說明】正則表達式

用於文本處理的語言（取行，過濾），支持正則
NR表明行數，$n取某一列，$NF最後一列
NR==20,NR==30 從20行到30行
FS豎着切，列的分隔符
RS橫着切，行的分隔符
【語法格式】sql

awk [–F] [「[分隔符]」] [’{print$1，$NF}’] [目標文件]
awk 'BEGIN{FS="[列分隔符]+";RS="[行分隔符]+";print "-GEGIN-"} NR==n{動做} END{print "-END-"}' xxx.txt
【內置變量】數據庫

複製代碼
$n 當前記錄的第n個字段，字段間由 FS分隔。
$0 完整的輸入記錄。
ARGC 命令行參數的數目。
ARGIND 命令行中當前文件的位置(從0開始算)。
ARGV 包含命令行參數的數組。
CONVFMT 數字轉換格式(默認值爲%.6g)
ENVIRON 環境變量關聯數組。
ERRNO 最後一個系統錯誤的描述。
FIELDWIDTHS 字段寬度列表(用空格鍵分隔)。
FILENAME 當前文件名。
FNR 同 NR，但相對於當前文件。
FS 字段分隔符(默認是任何空格)。
IGNORECASE 如果爲真，則進行忽略大小寫的匹配。
NF 當前記錄中的字段數。
NR 當前記錄數。
OFMT 數字的輸出格式(默認值是%.6g)。
OFS 輸出字段分隔符(默認值是一個空格)。
ORS 輸出記錄分隔符(默認值是一個換行符)。
RLENGTH 由 match函數所匹配的字符串的長度。
RS 記錄分隔符(默認是一個換行符)。
RSTART 由 match函數所匹配的字符串的第一個位置。
SUBSEP 數組下標分隔符(默認值是\034)。
複製代碼
【運算符】c#

複製代碼
= += -= *= /= %= ^= **= 賦值
?: C條件表達式
|| 邏輯或
&& 邏輯與
~ ~! 匹配正則表達式和不匹配正則表達式
< <= > >= != == 關系運算符
空格鏈接數組

- 加，減
/ & 乘，除與求餘
- ! 一元加，減和邏輯非
  ^ *** 求冪
  ++ -- 增長或減小，做爲前綴或後綴
  $ 字段引用
  in 數組成員
  複製代碼
  【字符串函數】
  複製代碼
  sub 匹配記錄中最大、最靠左邊的子字符串的正則表達式，並用替換字符串替換這些字符串。若是沒有指定目標字符串就默認使用整個記錄。替換隻發生在第一次匹配的時候
  gsub 整個文檔中進行匹配
  index 返回子字符串第一次被匹配的位置，偏移量從位置1開始
  substr 返回從位置1開始的子字符串，若是指定長度超過實際長度，就返回整個字符串
  split 可按給定的分隔符把字符串分割爲一個數組。若是分隔符沒提供，則按當前FS值進行分割
  length 返回記錄的字符數
  match 返回在字符串中正則表達式位置的索引，若是找不到指定的正則表達式則返回0。match函數會設置內建變量RSTART爲字符串中子字符串的開始位置，RLENGTH爲到子字符串末尾的字符個數。substr可利於這些變量來截取字符串
  toupper和tolower 可用於字符串大小間的轉換，該功能只在gawk中有效
  複製代碼
  【字符串函數】
  複製代碼
  atan2(x,y) y,x 範圍內的餘切
  cos(x) 餘弦函數
  exp(x) 求冪
  int(x) 取整
  log(x) 天然對數
  rand() 隨機數
  sin(x) 正弦
  sqrt(x) 平方根
  srand(x) x是rand()函數的種子
  int(x) 取整，過程沒有舍入
  rand() 產生一個大於等於0而小於1的隨機數
  複製代碼
  【使用範例】

一、只查看 ett.txt 文件（共 100 行）內第 20 到第 30 行的內容
awk ‘NR>19&&NR<31’ ett.txt
awk ‘{ if (NR>19&&NR<31) print $0}’ ett.txt
二、給文件內容加行號
awk ‘{print NR,$0}’ /etc/inittab
三、輸出第24行而且加行號
awk ‘NR==24 {print NR,$0}’ /etc/inittab
四、標準寫法
awk -F '[ :]+' 'NR==2{print $(NF-1)}' /etc/passwd
至關於 awk 'BEGIN{FS="[ :]+"}NR==2{print $(NF-1)}' /etc/passwd
awk 'BEGIN{RS="/"} {print $0}' /etc/passwd
五、以一個或多個/爲行的分割符，打印第二行的第二列，列的分隔符爲默認的空格,並打印行號
awk 'BEGIN{RS="[/]+"} NR==2{print NR,$2}' test
awk支持正則：
六、以：爲分隔符，打印第5列以s開頭的一整行
awk -F ":" '$5~/^s/{print $0}' /etc/passwd
七、以/爲分隔符，匹配倒數第二行的s或者沒有s後面是bin的整行
awk -F "/" '$(NF-1)~/(s|)bin/' /etc/passwd
八、匹配第一列以ssh或者ftp或mysql開頭或者結尾的行
awk '$1~/^(ssh|ftp|mysql)$/{print $1,$2}' /etc/services
九、輸出結果6 0 1 2
echo "6@@@@@@@@@@@@@@@0=============1##############2" |awk -F '[@=#]+' '{print $1,$2,$3,$4}'
十、
awk 'BEGIN{print "---BEGIN---"} NR==2{print $2} END{print "---END----"}' xxx.conf
　十一、awk統計百分比的問題tomcat

例一：bash

　　日誌樣子舉例以下：
http://youku.com 200
http://youku.com 302
http://youku.com 403
http://youku.com 502
http://baidu.com 302
http://baidu.com 404併發

現想使用awk命令按域名統計返回碼大於等於400的百分比，假如優酷總共有4行，大於等於400的返回碼有兩行，那佔比就爲50%
複製代碼
awk '{
count[$1]++;
if($2>400)above400[$1]++
}
END{
for(i in count){
print i, count[i], above400[i]/count[i]
}
}' < xxx.txt
複製代碼
例二：ssh

統計一個文件的中全部的error的佔比

awk '/error/{err++}END{print err,NR,err/NR*100"%" }' < xxx.txt
十二、關聯數組訪問問題

a.txt和b.txt兩個文件相同的兩個字段（id|money）,輸出a和b文件中相同id而且b文件money值大的一行

複製代碼
cat >>a.txt <<EOF
1|1
3|3
5|5
7|7
9|9
EOF
複製代碼
複製代碼
cat >>b.txt<<EOF
1|1
2|2
3|30
4|4
5|5
6|6
7|70
8|8
9|9
10|10
EOF
複製代碼
awk -F '|' 'BEGIN{ while(getline < "a.txt") { user_map[$1] = $2; } }
{
if ($1 in user_map) { if (user_map[$1] < $2) print $0; }
}' b.txt
注意：若是a.txt不存在，getline會返回-1，致使死循環。我之前曾經碰上過由於這個緣由致使程序掛死，因此特別提出來讓你們注意

1三、99乘法表

awk 'BEGIN{for(i=1;i<10;i++){for (j=1;j<=i;j++)printf "%d%s%d%s%d\t",i,"x",j,"=",i*j;print}}'
1四、tomcat併發數

netstat -an|grep 10050|awk '{count[$6]++} END{for (i in count) print(i,count[i])}'
sed
【功能說明】

Sed是Strem Editor(流編輯器)縮寫，是操做、過濾和轉換文本內容的強大工具。經常使用功能有增刪改查，過濾，取行。

參數

-n #取消默認輸出
-r #使用擴展正則
-i #刷到磁盤
-e #執行多條sed指令
-f #指令放在文件裏
sed-command

複製代碼
a 追加
i 插入
d 刪除
c 替換指定的行
s 替換每一行匹配到的第一個字符
g 替換每一行的所有
p 輸出
w 另存文件
e 執行bash命令
q 不繼續往下讀取
複製代碼
歸納流程：Sed軟件從文件或管道中讀取一行，處理一行，輸出一行；再讀取一行，再處理一行，再輸出一行……

增刪改查
a 追加文本到指定行後

i 插入文本到指定行前

增
單行增長

sed '2a 106,dandan,CSO' person.txt
sed '2i 106,dandan,CSO' person.txt
多行增長

sed '2a 106,dandan,CSO\n107,bingbing,CCO' person.txt
企業案例1：優化SSH配置（一鍵完成增長若干參數）

在咱們學習系統優化時，有一個優化點：更改ssh服務遠程登陸的配置。主要的操做是在ssh的配置文件加入下面5行文本。(下面參數的具體含義見其餘課程。)

Port 52113
PermitRootLogin no
PermitEmptyPasswords no
UseDNS no
GSSAPIAuthentication no
咱們可使用vi命令編輯這個文本，但這樣就比較麻煩，如今想一條命令增長5行文本到第13行前？

sed -ir '13 i ####Chris-sshd-2016.5.4-youhua######\nPort 52113\nPermitRootLogin no\nPermitEmptyPasswords no\nUseDNS no\nGSSAPIAuthentication no\n#####--end--#######\n' /etc/ssh/sshd_config
地址用逗號分隔的，n1,n2能夠用數字、正則表達式、或兩者的組合表示。

其餘使用例子

10{sed-commands} 對第10行操做
10,20{sed-commands} 對10到20行操做,包括第10,20行
10,+20{sed-commands} 對10到30(10+20)行操做,包括第10,30行
1~2{sed-commands} 對1,3,5,7,……行操做
10,${sed-commands} 對10到最後一行($表明最後一行)操做,包括第10行
/oldboy/{sed-commands} 對匹配oldboy的行操做
/oldboy/,/Alex/{sed-commands} 對匹配oldboy的行到匹配Alex的行操做
/oldboy/,${sed-commands} 對匹配oldboy的行到最後一行操做
/oldboy/,10{sed-commands} 對匹配oldboy的行到第10行操做，注意：若是前10行沒有匹配到oldboy，sed軟件會顯示10行之後的匹配oldboy的行，若是有。
1,/Alex/{sed-commands} 對第1行到匹配Alex的行操做
/oldboy/,+2{sed-commands} 對匹配oldboy的行到其後的2行操做
刪
d 刪除指定的行

sed 'd' person.txt #刪除所有
sed '2d' person.txt #刪除第二行
sed '2,5d' person.txt #刪除2到5行
sed '3,$d' person.txt #刪除3到結尾
sed '1~2d' person.txt #刪除1,3,5行
sed '1,+2d' person.txt #刪除1,2,3
sed '/zhangyao/d' person.txt #刪除匹配的zhangyao行
sed '/oldboy/,/Alex/d' person.txt #刪除匹配oldboy到Alex行
sed '/oldboy/,3d' person.txt #刪除從匹配oldboy的3行
企業案例2：打印文件內容但不包含oldboy

sed '/oldboy/d' person.txt #刪除包含"oldboy"的行
改
按行替換
c 用新行取代舊行

sed '2c 106,dandan,CSO' person.txt #替換第2行的內容
文本替換
s：單獨使用，將每一行中第一處匹配的字符串進行替換

g：每一行進行所有替換

-i：修改文件內容

sed軟件替換模型(方框▇被替換成三角▲)

sed -i 's/▇/▲/g' oldboy.log
sed -i 's#▇#▲#g' oldboy.log
企業案例3：指定行修改配置文件

指定行精確修改配置文件，這樣能夠防止修改多了地方。

sed '3s#0#9#' person.txt
變量替換
x=a
y=b
echo $x $y
sed s#$x#$y#g test.txt
分組替換( )和\1的使用說明
sed軟件的( )的功能能夠記住正則表達式的一部分，其中，\1爲第一個記住的模式即第一個小括號中的匹配內容，\2第二記住的模式，即第二個小括號中的匹配內容，sed最多能夠記住9個。

例：echo I am oldboy teacher.若是想保留這一行的單詞oldboy，刪除剩下的部分，使用圓括號標記想保留的部分。

echo I am oldboy teacher. |sed 's#^.am ([a-z].) tea.$#\1#g'
echo I am oldboy teacher. |sed -r 's#^.am ([a-z].) tea.$#\1#g'
echo I am oldboy teacher. |sed -r 's#I (.) (.) teacher.#\1\2#g'
命令說明

思路：用oldboy字符替換I am oldboy teacher.

下面解釋用□代替空格

^.am□ –>這句的意思是以任意字符開頭到am□爲止，匹配文件中的I am□字符串;
([a-z].)□–>這句的外殼就是括號(\），裏面的[a-z]表示匹配26個字母的任何一個，[a-z].合起來就是匹配任意多個字符，本題來講就是匹配oldboy字符串，因爲oldboy字符串是須要保留的,所以用括號括起來匹配，後面經過\1來取oldboy字符串。
□tea.$–>表示以空格tea起始,任意字符結尾，實際就是匹配oldboy字符串後，緊接着的字符串□teacher.;
後面被替換的內容中的\1就是取前面的括號裏的內容了，也就是咱們要的oldboy字符串。
()是擴展正則表達式的元字符，sed軟件默認識別基本正則表達式，想要使用擴展正則須要使用\轉義，即(\）。
sed使用-r選項則能夠識別擴展正則表達式，此時使用(\）反而會出錯。
企業案例4：系統開機啓動項優化

chkconfig --list|grep "3:on"|grep -vE "sshd|crond|network|rsyslog|sysstat"|awk '{print $1}'|sed -r 's#^(.*)#chkconfig \1 off#g'|bash
chkconfig --list|grep "3:on"
特殊符號&表明被替換的內容
#→將1到3行的C替換爲--C--

sed '1,3s#C#--&--#g' person.txt 　　　　　　　　#→此處&等於C
企業案例5：批量重命名文件

for i in seq 5;do touch stu102999${i}_finished.jpg;done
ls |sed -r 's/(.)_finished(.)/mv & \1_finish\2/e'
查
p 輸出指定內容，但默認會輸出2次匹配的結果，所以使用n取消默認輸出

按行查詢
sed '2p' person.txt
sed -n '2p' person.txt
sed -n '2,3p' person.txt
sed -n '1~2p' person.txt
sed -n 'p' person.txt
按字符串查詢
sed -n '/CTO/p' person.txt
sed -n '/CTO/,/CFO/p' person.txt
混合查詢
sed -n '2,/CFO/p' person.txt
sed -n '/feixue/,2p' person.txt
#特殊狀況，前兩行沒有匹配到feixue，就向後匹配，若是匹配到feixue就打印此行。
其餘功能
備份功能

sed -i.bak '$a 1111111111' xxx.txt
備份xxx.txt文件爲xxx.txt.bak，修改源文件，最後一行添加111111111

另存功能

sed 's/sb/SB/g w new.txt' xxx.txt
把sb替換成SB的整行輸出到new.txt中

大小寫轉換

\L #所有轉換成小寫

\l #單個轉換成小寫

\U #所有轉換成大寫

\u #單個轉換成大寫

\E #須要和\U和\L一塊兒使用，關閉\U和\L的功能

sed -r 's/(.),(.),(.*)/\L\3,\E\1,\U\2/g' xxx.txt
執行多條sed指令

sed -e '3,$d' -e 's#10#01#g' xxx.txt
sed '3,$d; s#10#01#g' xxx.txt
打印不可見字符l

sed -n 'l' xxx.txt
abc替換ABC（一一對應）

tr 'abc' 'ABC' xxx.txt
sed 'y#abc#ABC#' xxx.txt
能夠操做多個文件

sed 'y#abc#ABC#' xxx.txt 222.txt
模擬其餘命令

建立svn庫的時候自動取消#號和修改路徑
sed -i -r '12,13s/# //g' svnserve.conf
sed -i -r '20s/^# (.)/\1/g' svnserve.conf
sed -i -r '27s/^# (.)/\1/g' svnserve.conf
sed -i -r '12,13s/^# (.*)/\1/g' svnserve.conf

一條命令執行（加傳參）
SvnPath='zhangzhicheng'
sed -i -r -e '20s/^# (.)/\1/g' -e '27s/^# (.)/\1/g' -e '12,13s/^# (.)/\1/g' -e "32s/# (.=)(.*)/\1 \/usr\/svnData\/$SvnPath/" svnserve.conf
grep
【功能說明】

三劍客老三。搜索文本，過濾文本字符串 –v取反
【選項說明】

參數選項

解釋說明（帶※的爲重點）

-V

取反，讀出指定的內容以外的內容

-A

打印後面n行的內容

-B

打印前面n行的內容

-C

打印先後各n行的內容

-n