grep結合awk簡單用法

1、grep簡介:

grep (縮寫來自Globally search a Regular Expression and Print)是一種強大的文本搜索工具,它能使用正則表達式搜索文本,並把匹配的行打印出來。Unix的grep家族包括grep、egrepfgrephtml

 

表達符集java

^
錨定行的開始 如:'^grep'匹配全部以grep開頭的行。
$
錨定行的結束 如:'grep$'匹配全部以grep結尾的行。
.
匹配一個非換行符('\n')的字符如:'gr.p'匹配gr後接一個任意字符,而後是p。
*
匹配零個或多個先前字符 如:' *grep' (注意*前有空格)匹配全部零個或多個空格後緊跟grep的行,須要用egrep 或者grep帶上 -E 選項。 .*一塊兒用表明任意字符。
[]
匹配一個指定範圍內的字符,如'[Gg]rep'匹配Grep和grep。
[^]
匹配一個不在指定範圍內的字符,如:'[^A-FH-Z]rep'匹配不包含A-F和H-Z的一個字母開頭,緊跟rep的行。
\(..\)
標記匹配字符,如'\(love\)',love被標記爲1。
\<
錨定單詞的開始,如:'\<grep'匹配包含以grep開頭的單詞的行。
\>
錨定單詞的結束,如'grep\>'匹配包含以grep結尾的單詞的行。
x\{m\}
重複字符x,m次,如:'o\{5\}'匹配包含5個o的行。
x\{m,\}
重複字符x,至少m次,如:'o\{5,\}'匹配至少有5個o的行。
x\{m,n\}
重複字符x,至少m次,很少於n次,如:'o\{5,10\}'匹配5--10個o的行。
\w
匹配文字和數字字符,也就是[A-Za-z0-9],如:'G\w*p'匹配以G後跟零個或多個文字或數字字符,而後是p。
\W
\w的反置形式,匹配一個或多個非單詞字符,如點號句號等。
\b
單詞鎖定符,如: '\bgrep\b'只匹配grep。[2] 
用於egrep和 grep -E的元字符擴展集
\+
匹配一個或多個先前的字符。如:'[a-z]\+able',匹配一個或多個小寫字母后跟able的串,如loveable,enable,disable等。
\?
匹配零個或一個先前的字符。如:'gr\?p'匹配gr後跟一個或沒有字符,而後是p的行。
a\|b\|c
匹配a或b或c。如:grep|sed匹配grep或sed
\(\)
分組符號,如:love\(ab\le\|rs\)ov\+匹配loveable或lovers,匹配一個或多個ov。
 
參數選項:

 列出個別使用頻發的選項正則表達式

  一、-v 顯示不包含匹配文本的全部行json

  過濾掉文件中aaa的行數工具

  二、-l 輸出匹配的文件名spa

  -l 查詢多文件時只輸出包含匹配字符的文件名,而不輸出文本行。htm

$grep -l "lcj" *

datafile

  三、-i 忽略大小寫blog

  -i 關閉大小寫敏感性。get

  示例,查找含有「lcj」這三個字符的行,而且不區分大小寫:  io

[root@lcj lcj]# cat aa.txt 
aaaa
BBBB
cccc
DDDD
eeee
EEEE
[root@lcj lcj]# grep bb  aa.txt 
[root@lcj lcj]# grep -i bb  aa.txt 
BBBB
[root@lcj lcj]# 

  四、-n 顯示匹配的行及行號

  示例:查找aa.txt文件中含有「CAD」的全部行,並顯示行號:  

[root@lcj lcj]# grep -n c aa.txt 
3:cccc
[root@lcj lcj]# 

  

2、awk簡介

AWK是一個優良的文本處理工具,LinuxUnix環境中現有的功能最強大的數據處理引擎之一
 
實例:
截取文件中指定字段;

  須要截取GET後面的html數據,前提是要過濾出http 狀態碼爲200

   grep 「\」 200 :過濾出http狀態碼爲200

  awk -F 「GET」:指定從那列開始截取

  ‘{print $2}’:去除字段之間的空格進行截取【如: _"GET_ /11260464.html 】

上面截圖雖然前面的字段是咱們所須要的字段,可後面還有多餘的數據,以下過濾後面多餘的數據:

 

  awk '{print $1}':去除第一個空格以後的全部數據

  head:顯示前面10條數據,方便查看數據截取結果,最後能夠經過>進行重定向指定文件中

案例

   增長「grep」和「awk「命令結合使用案列:

   案例:須要獲取GET請求 ,狀態碼爲200,並過濾掉json和area字段的全部行

[root@lcj lcj]# cat 200.txt |grep " 200 " | awk -F"GET" '{print $2}'| awk '{print $1}' | grep -v "/js/" |grep -v  area >test001.csv

  grep -v過濾字段所在行

  

   繼續完善中、、、、、
相關文章
相關標籤/搜索