正則表達式的學習

時間 2020-07-11

原文原文鏈接

轉自鳥哥的linux私房菜 node

前言
linux

約略瞭解了 Linux 的基本指令 ( Shell ) 而且熟悉了 vi 以後，相信您對於敲擊鍵盤與指令比較不陌生了吧？？接下來，底下要開始介紹一個很重要的觀念，那就是所謂的『正則表達式』囉！

什麼是正則表達式

任何一個有經驗的系統管理員，都會告訴您：『正則表達式真是挺重要的！』爲何很重要呢？由於平常生活就使用的到啊！舉個例子來講，在您平常處理文書做業時，應該會經常使用到『搜尋/取代』等等的功能吧？這些舉動要做的漂亮，就是正則表達式的工做了！

簡單的說，正則表達式就是處理字符串的方法，他是以行爲單位，來進行字符串的處理行爲，他透過一些特殊符號的輔助，可讓使用者輕易的達到搜尋/取代某特定字符串的處理程序！

舉例來講，我要找到 VBird 或 Vbird 這個字樣，可是不要其它的字符串，該如何辦理？若是在沒有正則表達式的環境中(例如 MS word)，您或許就得要使用忽略大小寫的辦法，或者是分別以 VBird 及 Vbird 搜尋兩遍。可是，忽略大小寫可能會搜尋到 VBIRD/vbird/VbIrD 等等的不須要的字符串，而形成使用者的困擾。

再舉個系統常見的例子好了，假設妳發現系統在開機的時候，總是會出現一個關於 mail 程序的錯誤，而開機過程的相關程序都是在 /etc/rc.d/ 底下，也就是說，在該目錄底下的某個檔案內具備 mail 這個關鍵詞，好了，此時，您怎麼找出來含有這個關鍵詞的檔案？？您固然能夠一個檔案一個檔案的開啓，而後去搜尋 mail 這個關鍵詞，只是.....該目錄底下的檔案可能不止 100 個說～若是瞭解正則表達式的相關技巧，那麼只要一行指令就找出來啦！『grep 'mail' /etc/rc.d/*』那個 grep 就是支持正則表達式的工具程序之一！如何～很簡單吧！ ^_^y

談到這裏就得要進一步說明了，正則表達式基本上是一種『表示法』，只要工具程序支持這種表示法，那麼該工具程序就能夠用來做爲正則表達式的字符串處理之用。也就是說，例如 vi, grep, awk ,sed 等等工具，由於她們有支持正則表達式，因此，這些工具就可使用正則表達式的特殊字符來進行字符串的處理。

正則表達式對於系統管理員的用途

那麼爲什麼我須要學習正則表達式呢？對於通常使用者來講，因爲使用到正則表達式的機會可能不怎麼多，所以感覺不到他的魅力，不過，對於身爲系統管理員的您來講，正則表達式則是一個『不可不學的好東西！』怎麼說呢？因爲系統若是在繁忙的狀況之下，天天產生的訊息信息會多到你沒法想象的地步，而咱們也都知道，系統的『錯誤訊息登陸檔案』的內容(這部份咱們在第五篇會詳談)記載了系統產生的全部訊息，固然，這包含你的系統是否被『***』的紀錄數據。

可是系統的數據量太大了，要身爲系統管理員的你天天去看這麼多的訊息數據，從千百行的資料裏面找出一行有問題的訊息，呵呵～光是用肉眼去看，想不瘋掉都很難！這個時候，咱們就能夠透過『正則表達式』的功能，將這些登陸的信息進行處理，僅取出『有問題』的信息來進行分析，哈哈！如此一來，你的系統管理工做將會『快樂得不得了』啊！固然，正則表達式的優勢還不止於此，等您有必定程度的瞭解以後，您會愛上他喔！

正則表達式的普遍用途

正則表達式除了可讓系統管理員管理主機更爲便利以外，事實上，因爲正則表達式強大的字符串處理能力，目前一堆軟件都支持正則表達式呢！最多見的就是『郵件服務器』啦！

若是您留意因特網上的消息，那麼應該不能發現，目前形成網絡大塞車的主因之一就是『垃圾/廣告信件』了，而若是咱們能夠在主機端，就將這些問題郵件剔除的話，客戶端就會減小不少沒必要要的頻寬耗損了。那麼如何剔除廣告信件呢？因爲廣告信件幾乎都有必定的標題或者是內容，所以，只要每次有來信時，都先未來信的標題與內容進行特殊字符串的比對，發現有不良信件就予以剔除！嘿！這個工做怎麼達到啊？就使用正則表達式啊！目前兩大郵件服務器軟件 sendmail 與 postfix 以及支持郵件服務器的相關分析套件，都支持正則表達式的比對功能！

固然還不止於此啦，不少的服務器軟件、以及套件都支持正則表達式呢！固然，雖然各家軟件都支持他，不過，這些『字符串』的比對仍是須要系統管理員來加入比對規則的，因此啦！身爲系統管理員的你，爲了自身的工做以及客戶端的需求，正則表達式實在是很須要也很值得學習的一項工具呢！

正則表達式與 Shell 在 Linux 當中的角色定位

說實在的，咱們在學數學的時候，一個很重要、可是粉難的東西是必定要『背』的，那就是九九表，背成功了以後，將來在數學應用的路途上，真是一路順風啊！這個九九表咱們在小學的時候幾乎背了一全年才背下來，並非這麼好背的呢！但他倒是基礎當中的基礎！您如今必定受惠至關的多呢 ^_^！而咱們談到的這個正則表達式，與前一章的 BASH shell 就有點像是數學的九九表同樣，是 Linux 基礎當中的基礎，雖然也是最難的部分，不過，若是學成了以後，必定是『大大的有幫助』的！這就好像是金庸小說裏面的學武難關，任督二脈，打通任督二脈以後，武功馬上成倍成長！因此啦，不管是對於系統的認識與系統的管理部分，他都有很棒的輔助啊！請好好的學習這個基礎吧！ ^_^

延伸的正則表達式

正則表達式除了簡單的一組字符串處理以外，還能夠做羣組的字符串處理，例如進行搜尋 VBird 或 netman 或 lman 的搜尋，注意，是『或(or)』而不是『和(and)』的處理，此時就須要延伸正則表達式的幫助啦！藉由特殊的 ( 與 | 等字符的協助，就可以達到這樣的目的！好啦！清清腦門，我們用功去囉！

Tips:
有一點要向你們報告的，那就是：『正則表達式與萬用字符是不同的東西！』這很重要喔！由於萬用字符 (wildcard) 所表明的意義與正則表達式並不相同～要分的很清楚才行喔！因此，學習本章，請將前一章 bash 的萬用字符意義先忘掉吧！

基礎正則表達式
正則表達式

既然正則表達式是處理字符串的一個標準表示方式，他須要支持的工具程序來輔助，因此，咱們這裏就先介紹一個最簡單的字符串擷取功能的工具程序，那就是 grep 囉！在介紹完 grep 的基本功能以後，就進入正則表達式的特殊字符的處理能力了。

以 grep 擷取字符串

既然要使用 grep 固然就得要先了解一下 grep 的語法囉～

[root@test root]# grep [-acinv] '搜尋字符串' filename 參數說明： -a ：將 binary 檔案以 text 檔案的方式搜尋數據 -c ：計算找到 '搜尋字符串' 的次數 -i ：忽略大小寫的不一樣，因此大小寫視爲相同 -n ：順便輸出行號 -v ：反向選擇，亦即顯示出沒有 '搜尋字符串' 內容的那一行！ 範例： [root@test root]# grep 'root' /var/log/secure 將 /var/log/secure 這個檔案中有 root 的那一行秀出來  [root@test root]# grep -v 'root' /var/log/secure 若該行沒有 root 纔將數據秀出來到屏幕上！  [root@test root]# last | grep root 若該行有 root 纔將數據秀出來到屏幕上！

grep 是一個很常見也很經常使用的指令，他最重要的功能就是進行字符串數據的比對，而後將符合使用者需求的字符串打印出來。須要說明的是『 grep 在資料中查尋一個字符串時，是以 "整行" 爲單位來進行數據的擷取的！』也就是說，假如一個檔案內有 10 行，其中有兩行具備你所搜尋的字符串，則將那兩行顯示在屏幕上，其它的就丟棄了！

而 grep 除了能夠進行檔案的資料搜尋以外，也經常被應用在 input/output 的數據處理當中，例如常見的管線命令 ( pipe ) 就能夠經常見到他的蹤跡！以上面表格中的例子來看，咱們能夠發現前兩個例子是查尋檔案的內容，有沒有加上 -v 所顯示出來的結果是『相反的！』，而第三個例子則是以 pipe 的功能進行數據的處理的喔！

好了，咱們就開始以 grep 來進行正則表達式的簡易說明吧！咱們先以底下這個檔案來做爲範例：

[root@test root]# vi regular_express.txt
"Open Source" is a good mechanism to develop programs.
apple is my favorite food.
Football game is not use feet only.
this dress doesn't fit me.
However, this dress is about $ 3183 dollars.
GNU is free air not free beer.
Her hair is very beauty.
I can’t finish the test.
Oh! The soup taste good.
motorcycle is cheap than car.
This window is clear.
the symbol '*' is represented as start.
Oh! My god!
The gd software is a library for drafting programs.
You are the best is mean you are the no. 1.
The world is the same with "glad".
I like dog.
google is the best tools for search keyword.
goooooogle yes!
go! go! Let's go.
# I am VBird

須要特別注意的是，上面這個檔案鳥哥是在 Windows 的環境下編輯的，而且通過特殊處理過，所以，他雖然是純文字文件，可是內含一些 Windows 環境下的軟件經常自行加入的一些特殊字符，例如斷行字符(^M)就是一例！因此，您能夠直接將上面的文字以 vi 儲存成 regular_express.txt 這個檔案，不過，比較建議直接點底下的連結下載：

/linux_base/0330regularex/regular_express.txt

此外，由於不一樣的語系編碼是不同的，因此，您必需要將語系改爲英文語系，纔可以進行底下的測試，不然，可能會有顯示的內容與底下的輸出不符的情況喔！修改語系的方法爲：

[root@test root]# LANG=en [root@test root]# export LANG

好了，如今開始咱們一個案例一個案例的來介紹吧！

例題1、搜尋特定字符串：
搜尋特定字符串很簡單吧？假設咱們要從剛剛的檔案當中取得 the 這個特定字符串，最簡單的方式就是這樣：

[root@test root]# grep -n 'the' regular_express.txt 8:I can't finish the test. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world 
          
          
          
          
           
           
           
            is the same with "glad". 18:google is the best tools for search keyword.

那若是想要『反向選擇』呢？也就是說，當該行沒有 'the' 這個字符串時，才顯示在屏幕上，那就直接使用：

[root@test root]# grep -vn 'the' regular_express.txt

您會發現，屏幕上出現的行列爲除了 8,12,15,16,18 五行以外的其它行列！接下來，若是您想要取得不論大小寫的 the 這個字符串，則：

[root@test root]# grep -in 'the' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. 12:the symbol '*' is represented as start. 14:The gd software is a library for drafting programs. 15:You are the best is mean you are the no. 1. 16:The world 
          
          
          
          
           
           
           
            is the same with "glad". 18:google is the best tools for search keyword.

例題2、利用 [] 來搜尋集合字符
若是我想要搜尋 test 或 taste 這兩個單字時，能夠發現到，其實她們有共通的 't?st' 存在～這個時候，我能夠這樣來搜尋：

[root@test root]# grep -n 't[ae]st' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good.

瞭解了吧？其實 [] 裏面不論有幾個字符，他都謹表明某『一個』字符，因此，上面的例子說明了，我須要的字符串是『tast』或『test』兩個字符串而已！而若是想要搜尋到有 oo 的字符時，則使用：

[root@test root]# grep -n 'oo' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!

可是，若是我不想要 oo 前面有 g 的話呢？此時，能夠利用在集合字符的反向選擇 [^] 來達成

[root@test root]# grep -n '[^g]oo' regular_express.txt 2:apple is my favorite food. 3:Football game is not use feet only. 18:google is the best tools for search keyword. 19:goooooogle yes!

意思就是說，我須要的是 oo ，可是 oo 前面不能是 g 就是了！仔細比較上面兩個表格，妳會發現，第 1,9 行不見了，由於 oo 前面出現了 g 所致！第 2,3 行沒有疑問，由於 foo 與 Foo 都可被接受！可是第 18 行明明有 google 的 goo 啊～別忘記了，由於該行後面出現了 tool 的 too 啊！因此該行也被列出來～也就是說， 18 行裏面雖然出現了咱們所不要的項目 (goo) 可是因爲有須要的項目 (too) ，所以，是符合字符串搜尋的喔！

至於第 19 行，一樣的，由於 goooooogle 裏面的 oo 前面多是 o ，例如： go(ooo)oogle ，因此，這一行也是符合需求的！

再來，假設我 oo 前面不想要有小寫字符，因此，我能夠這樣寫 [^abcd....z]oo ，可是這樣彷佛不怎麼方便，因爲小寫字符的 ASCII 上編碼的順序是連續的，所以，咱們能夠將之簡化爲底下這樣：

[root@test root]# grep -n '[^a-z]oo' regular_express.txt 3:Football game is not use feet only.

也就是說，當咱們在一組集合字符中，若是該字符組是連續的，例如大寫英文/小寫英文/數字等等，就可使用[a-z],[A-Z],[0-9]等方式來書寫，那麼若是咱們的要求字符串是數字與英文呢？呵呵！就將他所有寫在一塊兒，變成：[a-zA-Z0-9]

例如，咱們要取得有數字的那一行，就這樣：

[root@test root]# grep -n '[0-9]' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1.

這樣對於 [] 以及 [^] 以及 [] 當中的 - 有了解了嗎？！ ^_^y

例題3、行首與行尾字符 ^ $：
咱們在例題一當中，能夠查詢到一行字符串裏面有 the 的，那若是我想要讓 the 只在行首列出呢？這個時候就得要使用定位字符了！咱們能夠這樣作：

[root@test root]# grep -n '^the' regular_express.txt 12:the symbol '*' is represented as start.

此時，就只剩下第 12 行，由於只有第 12 行的行首是 the 開頭啊～此外，若是我想要開頭是小寫字符的那一行就列出呢？能夠這樣：

[root@test root]# grep -n '^[a-z]' regular_express.txt 2:apple is my favorite food. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 12:the symbol '*' is represented as start. 18:google is the best tools for search keyword. 19:goooooogle yes!

若是我不想要開頭是英文字母，則能夠是這樣：

[root@test root]# grep -n '^[^a-zA-Z]' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 20:# I am VBird

注意到了吧？那個 ^ 符號，在字符集合符號(括號[])以內與以外是不一樣的！在 [] 內表明『反向選擇』，在 [] 以外則表明定位在行首的意義！要分清楚喔！

那若是我想要找出來，行尾結束爲小數點 (.) 的那一行，該如何處理：

[root@test root]# grep -n '\.$' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 11:This window is clear. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world 
          
          
          
          
           
           
           
            is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword.

特別注意到，由於小數點具備其它意義(底下會介紹)，因此必需要使用跳脫字符(\)來加以解除其特殊意義！不過，您或許會以爲奇怪，可是第 5~9 行最後面也是 . 啊～怎麼沒法打印出來？？這裏就牽涉到 Windows 平臺的軟件對於斷行字符的判斷問題了！咱們使用 cat -A 將第五行拿出來看，您會發現：

[root@test root]# cat -A regular_express.txt However, this dress is about $ 3183 dollars.^M$

注意到了沒？最後面的斷行字符應該是 $ 纔對，可是，由於 Windows 的 nodepad 會主動加上 ^M 做爲斷行的判斷，所以，那個 . 天然就不是緊接在 $ 以前喔！這樣能夠了解 ^ 與 $ 的意義嗎？好了，先不要看底下的解答，本身想想，那麼若是我想要找出來，哪一行是『空白行』，也就是說，該行並無輸入任何數據，該如何搜尋？？

[root@test root]# grep -n '^$' regular_express.txt 21:

由於只有行首跟行尾( ^$ )，因此，這樣就能夠找出空白行啦！再來，假設您已經知道在一個批次腳本 (shell script) 或者是設定檔當中，空白行與開頭爲 # 的那一行是批註，所以若是您要將數據列出給別人參考時，能夠將這些數據省略掉，以節省保貴的紙張，那麼，您能夠怎麼做呢？咱們以 /etc/syslog.conf 這個檔案來做範例，您能夠自行參考一下輸出的結果：

[root@test root]# cat /etc/syslog.conf [root@test root]# grep -v '^$' /etc/syslog.conf | grep -v '^#'

是否節省不少版面啊？？

例題4、任意一個字符 . 與重複字符 *
在 bash 的章節當中，咱們知道萬用字符 * 能夠用來表明任意(0或多個)字符，可是正則表達式並非萬用字符，二者之間是不相同的！至於正則表達式當中的『 . 』則表明『絕對有一個任意字符』的意思！這樣講很差懂，咱們直接作個練習吧！假設我須要找出 g??d 的字符串，亦即共有四個字符，起頭是 g 而結束是 d ，我能夠這樣作：

[root@test root]# grep -n 'g..d' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 9:Oh! The soup taste good. 16:The world 
          
          
          
          
           
           
           
            is the same with "glad".

由於強調 g 與 d 之間必定要存在兩個字符，所以，第 13 行的 god 與第 14 行的 gd 就不會被列出來啦！再來，若是我想要列出有 oo, ooo, oooo 等等的資料，也就是說，至少要有兩個 o 以上，該如何是好？？是 o* 仍是 oo* 仍是 ooo* 呢？雖然您能夠試看看結果，不過結果太佔版面了 @_@ ，因此，我這裏就直接說明。

由於 * 表明的是『重複 0 個或多個前面的 RE 字符』的意義，所以，『o*』表明的是：『擁有空字符或一個 o 以上的字符』，特別注意，由於容許空字符(就是有沒有字符均可以的意思)，所以， grep -n 'o*' regular_express.txt 將會把全部的數據都打印出來屏幕上！

那若是是『oo*』呢？則第一個 o 確定必需要存在，第二個 o 則是無關緊要的多個 o ，因此，凡是含有 o, oo, ooo, oooo 等等，均可以被列出來～

同理，當咱們須要『至少兩個 o 以上的字符串』時，就須要 ooo* ，亦便是：

[root@test root]# grep -n 'ooo*' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!

這樣理解 * 的意義了嗎？！好了，如今出個練習，若是我想要字符串開頭與結尾都是 g，可是兩個 g 之間僅能存在至少一個 o ，亦便是 gog, goog, gooog.... 等等，那該如何？

[root@test root]# grep -n 'goo*g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes!

如此瞭解了嗎？好，再來一題，若是我想要找出 g 開頭與 g 結尾的字符串，當中的字符無關緊要，那該如何是好？是『g*g』嗎？

[root@test root]# grep -n 'g*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 3:Football game is not use feet only. 9:Oh! The soup taste good. 13:Oh!  My god! 14:The gd software is a library for drafting programs. 16:The world 
          
          
          
          
           
           
           
            is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. 19:goooooogle yes!

但測試的結果居然出現這麼多行？？太詭異了吧？其實一點也不詭異，由於 g*g 裏面的 g* 表明『空字符或一個以上的 g』在加上後面的 g ，所以，整個 RE 的內容就是 g, gg, ggg, gggg ，所以，只要該行當中擁有一個以上的 g 就符合所需了！

那該如何獲得咱們的 g....g 的需求呢？呵呵！就利用任意一個字符『.』啊！亦便是：『g.*g』的做法，由於 * 能夠是 0 或多個重複前面的字符，而 . 是任意字符，因此：『.* 就表明零個或多個任意字符』的意思啦！

[root@test root]# grep -n 'g.*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 14:The gd software is a library for drafting programs. 18:google is the best tools for search keyword. 19:goooooogle yes!

由於是表明 g 開頭與 g 結尾，中間任意字符都可接受，因此，第 1 與第 14 行是可接受的喔！這個 .* 的 RE 表示任意字符是很常見的，但願你們可以理解而且熟悉！

再出一題，若是我想要找出『任意數字』的行列呢？由於僅有數字，因此就成爲：

[root@test root]# grep -n '[0-9][0-9]*' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1.

雖然使用 grep -n '[0-9]' regular_express.txt 也能夠獲得相同的結果，但鳥哥但願你們可以理解上面指令當中 RE 表示法的意義纔好！

例題5、限定連續 RE 字符範圍 {}
在上個例題當中，咱們能夠利用 . 與 RE 字符及 * 來設定 0 個到無線多個重複字符，那若是我想要限制一個範圍區間內的重複字符數呢？舉例來講，我想要找出兩個到五個 o 的連續字符串，該如何做？這時候就得要使用到限定範圍的字符 {} 了。但由於 { 與 } 的符號在 shell 是有特殊意義的，所以，咱們必需要使用跳脫字符 \ 來讓他失去特殊意義才行。

至於 {} 的語法是這樣的，假設我要找到兩個 o 的字符串，能夠是：

[root@test root]# grep -n 'o\{2\}' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!

這樣看彷佛與 ooo* 的字符沒有什麼差別啊？由於第 19 行有多個 o 依舊也出現了！好，那麼換個搜尋的字符串，假設咱們要找出 g 後面接 2 到 5 個 o ，而後再接一個 g 的字符串，他會是這樣：

[root@test root]# grep -n 'go\{2,5\}g' regular_express.txt 18:google is the best tools for search keyword.

嗯！很好！第 19 行終於沒有被取用了(由於 19 行有 6 個 o 啊！)。那麼，若是我想要的是 2 個 o 以上的 goooo....g 呢？除了能夠是 gooo*g ，也能夠是：

[root@test root]# grep -n 'go\{2,\}g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes!

呵呵！就能夠找出來啦～

重要特殊字符(characters)

通過了上面的幾個簡單的範例，咱們能夠將基礎的正則表達式特殊字符彙整以下：

RE 字符	意義與範例
^word	待搜尋的字符串(word)在行首！
	範例：grep -n '^#' regular_express.txt 搜尋行首爲 # 開始的那一行！
word$	待搜尋的字符串(word)在行尾！
	範例：grep -n '!$' regular_express.txt 將行尾爲 ! 的那一行打印出來！
.	表明『任意一個』字符，必定是一個任意字符！
	範例：grep -n 'e.e' regular_express.txt 搜尋的字符串能夠是 (eve) (eae) (eee) (e e)，但不能僅有 (ee) ！亦即 e 與 e 中間『必定』僅有一個字符，而空格符也是字符！
\	跳脫字符，將特殊符號的特殊意義去除！
	範例：grep -n \' regular_express.txt 搜尋含有單引號 ' 的那一行！
*	重複零個或多個的前一個 RE 字符
	範例：*grep -n 'ess' regular_express.txt** 找出含有 (es) (ess) (esss) 等等的字符串，注意，由於 * 能夠是 0 個，因此 es 也是符合帶搜尋字符串。另外，由於 * 爲重複『前一個 RE 字符』的符號，所以，在 * 以前必需要緊接着一個 RE 字符喔！例如任意字符則爲『.*』！
\{n,m\}	連續 n 到 m 個的『前一個 RE 字符』若爲 \{n\} 則是連續 n 個的前一個 RE 字符，如果 \{n,\} 則是連續 n 個以上的前一個 RE 字符！
	範例：grep -n 'go\{2,3\}g' regular_express.txt 在 g 與 g 之間有 2 個到 3 個的 o 存在的字符串，亦即 (goog)(gooog)
[]	字符集合的 RE 特殊字符的符號
	[list] 範例：grep -n 'g[ld]' regular_express.txt 搜尋含有 (gl) 或 (gd) 的那一行～須要特別留意的是，在 [] 當中『謹表明一個待搜尋的字符』，例如： a[afl]y 表明搜尋的字符串能夠是 aay, afy, aly 亦即 [afl] 表明 a 或 f 或 l 的意思！ [ch1-ch2] 範例：grep -n '[0-9]' regular_express.txt 搜尋含有任意數字的那一行！需特別留意，在字符集合 [] 中的減號 - 是有特殊意義的，他表明兩個字符之間的全部連續字符！但這個連續與否與 ASCII 編碼有關，所以，您的編碼須要設定正確(在 bash 當中，須要肯定 LANG 與 LANGUAGE 的變量是否正確！) 例如全部大寫字符則爲 [A-Z] [^] 範例：grep -n 'oo[^t]' regular_express.txt 搜尋的字符串能夠是 (oog) (ood) 但不能是 (oot) ，那個 ^ 在 [] 內時，表明的意義是『反向選擇』的意思～例如，我不要大寫字符，則爲 [^A-Z] ～可是，須要特別注意的是，若是以 grep -n [^A-Z] regular_express.txt 來搜尋，卻發現該檔案內的全部行都被列出，爲何？由於這個 [^A-Z] 是『非大寫字符』的意思，由於每一行均有非大寫字符，例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小寫字符，以及雙引號 (") 等字符，因此固然符合 [^A-Z] 的搜尋！

請特別留意的是，『正則表達式的特殊字符』與通常在指令列輸入指令的『萬用字符』並不相同，例如，在萬用字符當中，* 表明的是 0 ~ 無限多個字符的意思，可是在正則表達式當中， * 則是重複 0 到多個的前一個 RE 字符的意思～使用的意義並不相同，不要搞混了！ (鳥哥我一開始摸正則表達式時就很容易搞混！由於這裏是新手最容易搞錯的地方，特別當心啊！)

舉例來講，不支持正則表達式的 ls 這個工具中，若咱們使用『ls -l * 』表明的是任意檔名的檔案，而『ls -l a* 』表明的是以 a 爲開頭的任何檔名的檔案，但在正則表達式中，咱們要找到含有以 a 爲開頭的檔案，則必需要這樣：(需搭配支持正則表達式的工具)

ls | grep -n '^a.*'

另外，例如萬用字符的反向選擇，爲 [!range] ，至於正則表達式則是 [^range] 。這樣是否瞭解正則表達式與萬用字符的差別啦？？

延伸正則表達式
shell

事實上，通常讀者只要瞭解基礎型的正則表達式大概就已經至關足夠了，不過，某些時刻，爲了要簡化整個指令操做，瞭解一下使用範圍更廣的延伸型正則表達式的表示式，會更方便呢！舉個簡單的例子好了，在上節的例題三的最後一個例子中，咱們要去除空白行與行首爲 # 的行列，使用的是

grep -v '^$' regular_express.txt | grep -v '^#' 須要使用到管線命令來搜尋兩次！那麼若是使用延伸型的正則表達式，咱們能夠簡化爲：

egrep -v '^$|^#' regular_express.txt 利用支持延伸型正則表達式的 egrep 與特殊字符 | 來區隔兩組字符串，如此一來，是否方便不少呢？

這裏必需要特別強調， grep 支持的是基礎型的正則表達式，而 egrep 支持延伸正則表達式。事實上， egrep 是 grep -E 的命令別名，爲了方便使用，咱們仍是以 egrep 來跟 grep 區分吧！

熟悉了正則表達式以後，到這個延伸型的正則表達式，您應該也會想到，不就是多幾個重要的特殊符號嗎？ ^_^y 是的～因此，咱們就直接來講明一下，延伸型正則表達式有哪幾個特殊符號？

RE 字符	意義與範例
+	重複『一個或一個以上』的前一個 RE 字符
+	範例：egrep -n 'go+d' regular_express.txt 搜尋 (god) (good) (goood)... 等等的字符串。那個 o+ 表明『一個以上的 o 』因此，上面的執行成果會將第 1, 9, 13 行列出來。
?	『零個或一個』的前一個 RE 字符
?	範例：egrep -n 'go?d' regular_express.txt 搜尋 (gd) (god) 這兩個字符串。那個 o? 表明『空的或 1 個 o 』因此，上面的執行成果會將第 13, 14 行列出來。有沒有發現到，這兩個案例( 'go+d' 與 'go?d' )的結果集合與 'go*d' 相同？想一想看，這是爲何喔！ ^_^
\|	用或( or )的方式找出數個字符串
\|	範例：egrep -n 'gd\|good' regular_express.txt 搜尋 gd 或 good 這兩個字符串，注意，是『或』！因此，第 1,9,14 這三行均可以被打印出來喔！那若是還想要找出 dog 呢？就這樣啊： egrep -n 'gd\|good\|dog' regular_express.txt
( )	找出『羣組』字符串
( )	範例：egrep -n 'g(la\|oo)d' regular_express.txt 搜尋 (glad) 或 (good) 這兩個字符串，由於 g 與 d 是重複的，因此，我就能夠將 la 與 oo 列於 ( ) 當中，並以 \| 來分隔開來，就能夠啦！此外，這個功能還能夠用來做爲『多個重複羣組』的判別喔！舉例來講： echo 'AxyzxyzxyzxyzC' \| egrep 'A(xyz)+C' 上面的例子當中，意思是說，我要找開頭是 A 結尾是 C ，中間有一個以上的 "xyz" 字符串的意思～