Linux基礎篇之文本、數據流處理命令

時間 2019-11-22

原文原文鏈接

出處：http://rangochen.blog.51cto.com/2445286/1373476html

1 awk：文本和數據處理工具正則表達式

awk擅長於對數據進行分析並生成報告，簡單來講awk就是把文件逐行的讀入，以空格爲默認分隔符將每行切片，切開的部分再進行各類分析處理。
數組

使用方法：awk '{pattern + action}' {filenames}
緩存

其中pattern 表示awk 在數據中查找的內容，而action是在找到匹配內容時所執行的一系列命令。花括號（{}）不須要在程序中始終出現，但它們用於根據特定的模式對一系列指令進行分組。pattern就是要表示的正則表達式，用斜槓括起來。準備實例操做文件：netstat -t >> netstat.txtapp

1.1 打印輸出：print，格式化打印輸出：printf編輯器

awk '{print$1, $4}' netstat.txtide

awk '{printf "%-8s %-8s %-8s %-18s %-22s %-15s\n",$1,$2,$3,$4,$5,$6}' netstat.txt工具

1.2 過濾記錄：awk '$3==0 && $6=="LISTEN"' netstat.txtui

其中的「==」爲比較運算符。其餘比較運算符：!=,>, <, >=, <=spa

awk '$3>0 {print $0}' netstat.txt

加入表頭：內建變量NR

awk '$3==0 && $6=="LISTEN" || NR==1 ' netstat.txt

再加上格式化輸出

awk '$3 ==0 && $6=="LISTEN" || NR==1 {printf "%-20s %-20s %s\n",$4,$5,$6}' netstat.txt

ps：awk的內建變量

$0	當前記錄（這個變量中存放着整個行的內容）
$1~$n	當前記錄的第n個字段，字段間由FS分隔
FS	輸入字段分隔符默認是空格或Tab
NF	當前記錄中的字段個數，就是有多少列
NR	已經讀出的記錄數，就是行號，從1開始，若是有多個文件話，這個值也是不斷累加中。
FNR	當前記錄數，與NR不一樣的是，這個值會是各個文件本身的行號
RS	輸入的記錄分隔符，默認爲換行符
OFS	輸出字段分隔符，默認也是空格
ORS	輸出的記錄分隔符，默認爲換行符
FILENAME	當前輸入文件的名字

輸出行號：awk '$3 ==0 && $6=="ESTABLISHED"|| NR==1 {printf "%02s %s %-20s %-20s %s\n",NR, FNR,$4,$5,$6}' netstat.txt

指定分隔符：awk 'BEGIN{FS=":"} {print $1,$3,$6}' /etc/passwd

或者awk -F: '{print $1,$3,$6}' /etc/passwd

以\t做爲分隔符輸出：awk -F: '{print $1,$3,$6}' OFS="\t" /etc/passwd

1.3 字符串匹配：～表示匹配模式開始，正則表達式匹配。

awk '$6 ~ /TIME/ || NR ==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt

awk '$6 ~ /ESTABLISHED/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt

awk '/LISTEN/' netstat.txt

使用「/TIME|ESTABLISHED/」來匹配TIME 或者ESTABLISHED :

awk '$6 ~ /FIN|TIME/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt

模式取反：！～

awk '$6 !~ /TIME/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt

或者awk '!/WAIT/' netstat.txt

1.4 拆分文件：使用數據流重定向」>」

awk 'NR!=1 {print > $6}' netstat.txt NR!=1表示不處理表頭

把指定的列輸出到文件： awk 'NR!=1{print $4,$5 > $6}' netstat.txt

使用程序流進行條件拆分：if else

awk 'NR!=1{if($6 ~ /TIME|ESTABLISHED/) print > "1.txt";

else if($6 ~ /LISTEN/) print > "2.txt";

else print > "3.txt"}' netstat.txt

1.5 統計

計算全部的C文件，CPP文件和H文件的文件大小總和：

ls -l *.cpp *.c*.h | awk '{sum+=$5} END {print sum}'

統計各個connection狀態的用法：使用數組

awk 'NR!=1{a[$6]++;} END {for (i in a) print i ", " a[i];}' netstat.txt

統計每一個用戶的進程的佔了多少內存：

ps aux| awk 'NR!=1{a[$1]+=$6;} END { for(i ina) print i ", " a[i]"KB";}'

數組：由於awk中數組的下標能夠是數字和字母，數組的下標一般被稱爲關鍵字(key)。值和關鍵字都存儲在內部的一張針對key/value應用hash的表格裏。因爲hash不是順序存儲，所以在顯示數組內容時會發現，它們並非按照你預料的順序顯示出來的。數組和變量同樣，都是在使用時自動建立的，awk也一樣會自動判斷其存儲的是數字仍是字符串。通常而言，awk中的數組用來從記錄中收集信息，能夠用於計算總和、統計單詞以及跟蹤模板被匹配的次數等等。

1.6 使用腳本進行文本、數據處理

BEGIN、END關鍵字：BEGIN表示處理全部行以前的標識，END表示處理完全部行後的標識，具體語法：

BEGIN{ 這裏面放的是執行前的語句}

END {這裏面放的是處理完全部的行後要執行的語句}

{這裏面放的是處理每一行時要執行的語句}

實例操做文件：cat cal.awk

#!/bin/awk -f

#運行前

BEGIN {

math= 0

english= 0

computer= 0

printf"NAME NO. MATH ENGLISH COMPUTER TOTAL\n"

printf"---------------------------------------------\n"

}

#運行中

{

math+=$3

english+=$4

computer+=$5

printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5

}

#運行後

END{

printf"---------------------------------------------\n"

printf "TOTAL:%10d %8d %8d \n", math, english, computer

printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR,computer/NR

}

執行：awk -f cal.awk score.txt

1.7 變量聲明和環境變量：使用-v參數進行變量聲明，ENVIRON關鍵字表示環境變量

$ x=5

$ y=10

$ export y #y被export爲環境變量

$ echo $x $y

5 10

$awk -v val=$x '{print $1, $2, $3, $4+val, $5+ENVIRON["y"]}' OFS="\t" score.txt

2 sed：流編輯器

stream editor，流編輯器，用程序的方式來編輯文本，正則表達式進行模式匹配。sed自己是一個管道命令，能夠分析standard input，也能夠將數據進行替換、刪除、新增、頡取特定行等功能。

演示文本：catpets.txt

This is my cat

my cat's name is betty

This is my dog

my dog's name is frank

This is my fish

my fish's name is george

This is my goat

my goat's name is adam

使用：sed [-nefr] action

action:-i直接修改讀取的檔案內容，而不是由屏幕輸出，-r表示支持延伸型正則表達式的語法。

動做說明：[n1[,n2]] function n1,n2表示要選擇的行數，function包括：

a-新增，c-取代，d-刪除，i-插入，p-打印，s-取代（能夠直接進行取代的工做，例如 1,20s/old/new/g）

2.1 用s命令進行替換

my字符串替換成Rango Chen’s

sed 「s/my/Rango Chen's/g」 pets.txt

ps:若是使用單引號，則沒法經過\'來轉義。該命令並無對文件內容進行更改，只是把處理事後的內容輸出，若是你要寫回文件，你可使用重定向：sed "s/my/Rango Chen's/g" pets.txt >Chen_pets.txt，或者使用-i選項：sed -i 「s/my/Rango Chen's/g」 pets.txt

s表示替換動做，/g表示一行上的替換全部的匹配。

在每一行最前面加上#：sed 's/^/#/g' pets.txt

在每一行的末尾加上---：sed 's/$/ --- /g' pets.txt

基礎的正則表示法特殊字符：

^ 表示一行的開頭。如：/^#/ 以#開頭的匹配。

$ 表示一行的結尾。如：/}$/ 以}結尾的匹配。

\< 表示詞首。如\<abc 表示以abc 爲首的詞。

\> 表示詞尾。如 abc\> 表示以abc 結尾的詞。

\ 將特殊字符進行轉義，還原其自己意義：grep -n \' pets.txt 搜尋含有單引號'的那一行。

. 表示任何單個字符。

* 表示某個字符出現了0次或屢次。

[ ] 字符集合。如：[abc]表示匹配a或b或c，還有[a-zA-Z]表示匹配全部的26個字符。若是其中有^表示取反，如[^a]表示非a的字符

\{n,m\} 連續n到m個的「前一個RE字符」 grep -n 'go\{2,3\}g' 1.txt 在g與g之間有2到3個o存在的字符串，亦即(goog)(gooog)

去掉某html中的tags：html.txt：

<b>This</b>is what <span style="text-decoration:underline;">I</span> meant. Understand?

sed 's/<[^>]*>//g' html.txt

只替換第3到第6行的文本：sed "3,6s/my/your/g" pets.txt

只替換第3行的文本：sed "3s/my/your/g" pets.txt

只替換每一行的第一個s：sed 's/s/S/1' my.txt 1表示第一個

只替換每一行的第二個s：sed 's/s/S/2' my.txt 2表示第二個

只替換第一行的第3個之後的s：sed 's/s/S/3g' my.txt

2.2 多個匹配

一次替換多個模式，每一個模式之間用;進行間隔：sed '1,3s/my/your/g; 3,$s/This/That/g' my.txt

上面的命令等價於：sed -e'1,3s/my/your/g' -e '3,$s/This/That/g' my.txt

使用&來當作被匹配的變量，加入一些字符：sed 's/my/[&]/g' my.txt

此命令至關於在my兩邊加上[]

2.3 圓括號匹配

圓括號括起來的正則表達式所匹配的字符串會能夠當成變量來使用，sed中使用的是\1,\2…

sed 's/This is my $[^,]*$,.*is $.*$/\1:\2/g' my.txt

cat:betty

dog:frank

fish:george

goat:adam

2.4 基本知識點

1）Pattern Space：關於參數-n，表示取消默認輸出，至關於--quiet，--silent。在sed處理文件的時候，每一行都被保存在一個叫模式空間的臨時緩衝區中，除非行被刪除或者輸出被取消，不然全部被處理的行都將打印在屏幕上。接着模式空間被清空，並存入新的一行等待處理。

2）Address：[address[,address]][!]{cmd}，其中的!表示匹配成功後是否執行命令，address能夠是一個數字，也能夠是一個模式，能夠經過逗號分隔兩個address表示兩個address的區間。

3）命令打包：cmd能夠是多個，它們能夠用分號分開，能夠用大括號括起來做爲嵌套命令

對3行到第6行，匹配/This/成功後，再匹配/fish/，成功後執行d命令：

sed '3,6 {/This/{/fish/d}}' pets.txt

從第一行到最後一行，若是匹配到This，則刪除之；若是前面有空格，則去除空格：

sed '1,${/This/d ; s/^ *//g}' pets.txt

4）HoldSpace：保持空間

g：將hold space中的內容拷貝到pattern space中，原來pattern space裏的內容清除
G：將hold space中的內容append到pattern space\n後
h：將pattern space中的內容拷貝到hold space中，原來的hold space裏的內容被清除
H：將pattern space中的內容append到hold space\n後
x：交換pattern space和hold space的內容

sed -e '/test/h' -e '$G‘ example：在這個例子裏，匹配test的行被找到後，將存入模式空間，h命令將其複製並存入一個稱爲保持緩存區的特殊緩衝區內。第二條語句的意思是，當到達最後一行後，G命令取出保持緩衝區的行，而後把它放回模式空間中，且追加到如今已經存在於模式空間中的行的末尾。在這個例子中就是追加到最後一行。簡單來講，任何包含test的行都被複制並追加到該文件的末尾。

sed -e '/test/h' -e '/check/x' example：互換模式空間和保持緩衝區的內容。也就是把包含test與check的行互換。

5）執行sed腳本：sed -f test.sed

Sed對於腳本中輸入的命令很是挑剔，在命令的末尾不能有任何空白或文本，若是在一行中有多個命令，要用分號分隔。以#開頭的行爲註釋行，且不能跨行。

ps: 去除空白行：sed '/^ *$/d' file

3 sort：文本內容排序

語　　法：sort [-bcdfimMnr] [-o<輸出文件>] [-t<分隔字符>] [+<起始欄位>-<結束欄位>] [--help] [--verison] [文件]

參　　數：
-b 忽略每行前面開始出的空格字符。
-c 檢查文件是否已經按照順序排序。
-d 排序時，處理英文字母、數字及空格字符外，忽略其餘的字符。
-f 排序時，將小寫字母視爲大寫字母。
-i 排序時，除了040至176之間的ASCII字符外，忽略其餘的字符。
-m 將幾個排序好的文件進行合併。
-M 將前面3個字母依照月份的縮寫進行排序。
-n 依照數值的大小排序。
-o<輸出文件> 將排序後的結果存入指定的文件。
-r 以相反的順序來排序。
-t<分隔字符> 指定排序時所用的欄位分隔字符。
+<起始欄位>-<結束欄位> 以指定的欄位來排序，範圍由起始欄位到結束欄位的前一欄位。
--help 顯示幫助。
--version 顯示版本信息

4 uniq:Filter adjacent matching lines from INPUT (or standard input), writingto OUTPUT (or standard output)

顯示惟一的行，對於那些連續重複的行只顯示一次,以及計數重複的行

uniq：不加任何參數表示匹配第一次出現的那行

uniq -c：顯示重複的行的行數

uniq -u：僅顯示文件中沒有連續出現的行，惟一行

uniq -d：僅顯示文件中連續重複出現的行。

5 cut：片斷頡取工具，能夠從一個文本文件或者文本流中提取文本列

5.1 命令用法

cut -b list [-n] [file ...]

cut -c list [file ...]

cut -f list [-d delim][-s][file ...]

-b、-c、-f分別表示字節、字符、字段（即byte、character、field）；list表示-b,-c,-f操做範圍，-n表示具體數字，with -b: don’t split multibyte characters；file表示的天然是要操做的文本文件的名稱；delim（英文全寫：delimiter）表示分隔符，默認狀況下爲TAB；-s表示不包括那些不含分隔符的行（這樣有利於去掉註釋和標題）。--output-delimiter=字符串,使用指定的字符串做爲輸出分界符，默認採用輸入的分界符。上面三種方式中，表示從指定的範圍中提取字節（-b）、或字符（-c）、或字段（-f）。

LIST的範圍：

N	只有第N項
N-	從第N項一直到行尾
N-M	從第N項到第M項(包括M)
-M	從一行的開始到第M項(包括M)
-	從一行的開始到結束的全部項