grep 工具實用頁

時間 2019-12-13

標籤 grep 工具實用简体版

原文原文鏈接

此次講的是 bash 命令行中的外部命令 grep 的一些事情。php

歷史 ¹

grep是一個最初用於 Unix 操做系統的命令行工具。在給出文件列表或標準輸入後，grep會對匹配一個或多個正則表達式的文本進行搜索，並只輸出匹配（或者不匹配）的行或文本。html

grep這個應用程序最先由肯·湯普遜寫成。grep原先是ed下的一個應用程序，名稱來自於g/re/p（globally search a regular expression and print，以正規表示法進行全局查找以及打印）。在ed下，輸入g/re/p這個命令後，會將全部匹配先定義樣式的字符串，以行爲單位打印出來。java

在1973年，Unix第四版中，grep首次出如今man頁面中。linux

以上主要來自維基中。nginx

功能

grep 使用正則表達式搜索文本，並把匹配的行打印出來。做爲輸入的文本，能夠來自標準輸入，也能夠來自（任意多個、通配符表示的）文件，新版本的 grep 也支持面向當前目錄的子文件夾遍歷全部文件進行正則式匹配和搜索。正則表達式

grep 的典型選項包括有：express

模式選擇和解釋：

-E 將範本樣式爲延伸的普通表示法來使用，意味着使用能使用擴展正則表達式。(extended regular expression)
-F 將範本樣式視爲固定字符串的列表。(newline-separated strings)
-G 將範本樣式視爲基本正則式來使用。(basic regular expression)
-P 將範本樣式視爲Perl的表示法來使用。(Perl regular expression)
-e<範本樣式> 指定字符串做爲查找文件內容的範本樣式。
-f<範本文件> 指定範本文件，其內容有一個或多個範本樣式，讓grep查找符合範本條件的文件內容，格式爲每一列的範本樣式。
-i 忽略字符大小寫的差異。
-w 只顯示全字符合的列。
-x 只顯示全列符合的列。bash

雜類：

-v 反轉查找。
-s 不顯示錯誤信息。dom

輸出控制：

-b 顯示輸出行的從文件開始起的字節偏移量。
-c 計算符合範本樣式的列數。
-h 在顯示符合範本樣式的那一列以前，不標示該列所屬的文件名稱。
-H 在顯示符合範本樣式的那一列以前，標示該列的文件名稱。
-l 列出文件內容符合指定的範本樣式的文件名稱。
-L 列出文件內容不符合指定的範本樣式的文件名稱。
-n 在顯示符合範本樣式的那一列以前，標示出該列的編號。
-o 只輸出文件中匹配到的部分。
-q 不顯示任何信息。
-R/-r 此參數的效果和指定「-d recurse」參數相同。ssh

內容控制：

-B<顯示列數> 除了顯示符合範本樣式的那一行以外，並顯示該行以前的內容。
-A<顯示列數> 除了顯示符合範本樣式的那一行以外，並顯示該行以後的內容。
-C<顯示列數>或-<顯示列數> 除了顯示符合範本樣式的那一列以外，並顯示該列以前後的內容。

詳細的選項請參考 grep --help 的輸出。

Usage: grep [OPTION]... PATTERN [FILE]...
Search for PATTERN in each FILE.
Example: grep -i 'hello world' menu.h main.c

完整的參考手冊請經過命令行 man grep 和 info grep 來檢索。

基本用法 ²

在文件中搜索一個單詞，命令會返回一個包含「match_pattern」的文本行：

grep match_pattern file_name
grep 'match_pattern' file_name
grep "match_pattern" file_name

上面三個命令對於grep來講是等效的。其區別在於，單引號能夠防止 match_pattern 中出現空格的狀況，且禁止bash嵌套計算（例如 $var 變量嵌入），而雙引號在具有單引號的效果的同時也支持 bash 變量展開、bash 命令嵌套計算、bash 算術表達式計算和展開等等。

在多個文件中查找：

grep "match_pattern" file_1 file_2 file_3 ...

輸出除以外的全部行 -v 選項：

grep -v "match_pattern" file_name

再如

ps -auxef|grep java|grep -v grep

這裏的 grep -v grep 表示從前面的結果（全部的java運行實例）中排除帶有grep文字的實例。實際上，這是爲了將 grep java 這條命令的實例給排除掉，這樣咱們就會得到純粹的 java 運行實例了。

標記匹配顏色 --color=auto 選項：

grep "match_pattern" file_name --color=auto

使用正則表達式 -E 選項：

grep -E "[1-9]+"
# 或
egrep "[1-9]+"

egrep 表示使用 Extended 正則表達式語法。

只輸出文件中匹配到的部分 -o 選項：

echo this is a test line. | grep -o -E "[a-z]+\."
line.

echo this is a test line. | egrep -o "[a-z]+\."
line.

統計文件或者文本中包含匹配字符串的行數 -c 選項：

grep -c "text" file_name

輸出包含匹配字符串的行數 -n 選項：

grep "text" -n file_name
或
cat file_name | grep "text" -n

#多個文件
grep "text" -n file_1 file_2

打印樣式匹配所位於的字符或字節偏移：

echo gun is not unix | grep -b -o "not"
7:not

#一行中字符串的字符便宜是從該行的第一個字符開始計算，起始值爲0。選項 -b -o 通常老是配合使用。

搜索多個文件並查找匹配文本在哪些文件中：

grep -l "text" file1 file2 file3...

忽略匹配樣式中的字符大小寫：

echo "hello world" | grep -i "HELLO"
hello

選項 -e 指定多個匹配樣式：

echo this is a text line | grep -e "is" -e "line" -o
is
line

#也可使用-f選項來匹配多個樣式，在樣式文件中逐行寫出須要匹配的字符。
cat patfile
aaa
bbb

echo aaa bbb ccc ddd eee | grep -f patfile -o

grep遞歸搜索文件

在多級目錄中對文本進行遞歸搜索：

grep "text" . -r -n
# .表示當前目錄。

在grep搜索結果中包括或者排除指定文件：

#只在目錄中全部的.php和.html文件中遞歸搜索字符"main()"
grep "main()" . -r --include *.{php,html}

#在搜索結果中排除全部README文件
grep "main()" . -r --exclude "README"

#在搜索結果中排除filelist文件列表裏的文件
grep "main()" . -r --exclude-from filelist

使用0值字節後綴的 grep 與 xargs：

#測試文件：
echo "aaa" > file1
echo "bbb" > file2
echo "aaa" > file3

grep "aaa" file* -lZ | xargs -0 rm
#執行後會刪除file1和file3，grep輸出用-Z選項來指定以0值字節做爲終結符文件名（\0），xargs -0 讀取輸入並用0值字節終結符分隔文件名，而後刪除匹配文件，-Z一般和-l結合使用。

grep靜默輸出：

grep -q "test" filename
#不會輸出任何信息，若是命令運行成功返回0，失敗則返回非0值。通常用於條件測試。

打印出匹配文本以前或者以後的行：

#顯示匹配某個結果以後的3行，使用 -A 選項：
seq 10 | grep "5" -A 3
5
6
7
8

#顯示匹配某個結果以前的3行，使用 -B 選項：
seq 10 | grep "5" -B 3
2
3
4
5

#顯示匹配某個結果的前三行和後三行，使用 -C 選項：
seq 10 | grep "5" -C 3
2
3
4
5
6
7
8

#若是匹配結果有多個，會用「--」做爲各匹配結果之間的分隔符：
echo -e "a\nb\nc\na\nb\nc" | grep a -A 1
a
b
--
a
b

grep -P 表示啓用perl語法規則。此時你可使用 Perl 正則式語法來編寫規則。

Perl 正則式語法，又被稱做 PCRE表達式，能夠參考 Wiki 的PCRE表達式全集。

常見的慣用法

find text string recursively

在一個文件夾中，我不知道哪些文件包含了 fantasy 文字描述，能夠這樣找：

grep -PHni 'fantasy' * -r

這條命令會列舉當前文件夾中全部內容包含fantasy的文件，將它們的文件名和包含fantasy文字的行及其行號都列舉出來。

若是你還須要看看匹配文字的先後上下文，能夠用：

grep -PHni 'fantasy' * -r -C 3

-P 表示使用 Perl 正則式語法

-H 表示打印出匹配行所在的文件名

-n 表示打印出匹配行的行號

-i 表示忽略大小寫

-C 3 表示先後三行都列舉出來。

-B 3 表示前面三行也被列舉出來。

-A 3 表示後面三行也被列舉出來。

find ip address

使用 -o 參數時，grep 經常被用於抽取特定模式的文字內容，而不是將整個匹配行進行輸出。

例如：

$ ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
2: ens3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
    link/ether 56:00:01:c6:ab:01 brd ff:ff:ff:ff:ff:ff
    inet 217.179.87.159/23 brd 217.179.87.255 scope global dynamic ens3
       valid_lft 63125sec preferred_lft 63125sec
3: ens7: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
    link/ether 5a:00:01:c6:ab:01 brd ff:ff:ff:ff:ff:ff

$ ip addr | grep -Po 'inet \d+\.\d+\.\d+\.\d+' | grep -v 'inet 127' | grep -Po '\d+.+'
217.179.87.159

在這裏其中表達式一會抽出 'inet xxxxxx' 的兩行內容，形如：

inet 127.0.0.1
inet 217.179.87.159

表達式二會將 127.0.0.1 行排除掉，表達式三去掉inet前綴，最後就獲得了咱們想要的IP地址了。

想要抽取 IPv6 的地址也能夠用類似的辦法。

固然，表達式三針對 'inet 217.179.87.159' 進行抽取是比較累的方法，實際上這裏咱們會採用 awk來切掉前半部分：awk '{print $2}'。這個短語按照空格將輸入文本切分紅 n 個小段，$2 表示的是第二段也就是咱們想要的 IP 地址了。

ports

若是想要找出當前主機中監聽端口的服務，能夠利用 lsof 命令的輸出：

$ sudo lsof -Pni|grep LISTEN
sshd        858              root    3u  IPv4    19572      0t0  TCP *:22 (LISTEN)
sshd        858              root    4u  IPv6    19582      0t0  TCP *:22 (LISTEN)
nginx      6170              root    9u  IPv4 53951827      0t0  TCP *:443 (LISTEN)
nginx      6170              root   10u  IPv4 53951828      0t0  TCP *:8060 (LISTEN)
nginx      6170              root   11u  IPv4 53951829      0t0  TCP *:80 (LISTEN)

據此，咱們能夠寫出一個經常使用命令函數 ports，並將其放在 .bashrc 文件中，因而咱們能夠簡便地檢視端口號了。這個函數能夠這麼寫：

ports () {
    local x=$1
    if [ "$x" == "" ]; then
        sudo lsof -Pni|grep -P 'LISTEN|UDP'
    else
        sudo lsof -Pni|grep -P 'LISTEN|UDP'|grep ":$x"
    fi
}

而後咱們能夠這麼使用它：

ports
ports 443
ports 22

注意，你最好將本身的 Linux 帳戶調整爲免密碼sudo的，不然使用 ports 時可能須要輸入本身的密碼來得到 sudo 身份。固然，若是隻想檢查本身啓動的服務的端口號的話，能夠去掉sudo指令。

has-user, has-group

如何檢測一個linux帳戶有否存在呢？

Linux中沒有通用的命令專門用於此項檢測。一般像useradd之類的命令會在用戶存在時返回失敗，但這並不是恰當的檢測方法。

爲了達到目的，咱們只能自行解釋 /etc/passwd 文件。這個文件會羅列系統中全部的帳戶，其格式形如這樣：

root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync
...

因此，判斷一個用戶是否存在，只需判斷第一項字段就能夠了。

很明顯，awk適合作這事：

$ cat /etc/passwd|awk -F: '{print $1}'
root
daemon
bin
sys
sync

不過本文中仍是要用grep來解決問題：

has-user() {
    local name=${1:-root}
    cat /etc/passwd|grep -q "^$name"
}

has-user 'joe' && echo 'joe exists' || 'joe not exists'

相似的，咱們還能夠定義類似的函數 has-group：

has-group () {
    local name=${1:-root}
    cat /etc/group|grep -q "^$name"
}

has-group staff && echo 'staff group exists' || echo 'staff group not exists'

下面，咱們給出一些實用的例子：

function find_ip () { ip addr|grep -Poi "inet ((192.168.\d+.\d+)|(172.\d+.\d+.\d+)|(10.\d+.\d+.\d+))"|grep -Poi "\d+.\d+.\d+.\d+"; }

function find_ip_uniq () { ip addr|grep -Poi "inet ((192.168.\d+.\d+)|(172.\d+.\d+.\d+)|(10.\d+.\d+.\d+))"|grep -Poi "\d+.\d+.\d+.\d+"|grep -v '\.255'|head -n1; }

genpasswd(){ strings /dev/urandom|grep -oP '[[:alnum:]]|[\#\%\@\&\^]'|head -n "${1:-16}"|tr -d '\n';echo;}