（待整理完）正則表達式30分鐘入門教程

時間 2019-11-18

原文原文鏈接

正則表達式是什麼？

Regular Expression（regex、regexp或RE）：記錄文本規則的代碼(描述搜索模式的特殊文本字符串)html

極可能你使用過Windows/Dos下用於文件查找的通配符(wildcard)，也就是*和?。若是你想查找某個目錄下的全部的Word文檔的話，你會搜索*.doc。在這裏，*會被解釋成任意的字符串。和通配符相似，正則表達式也是用來進行文本匹配的工具，只不過比起通配符，它能更精確地描述你的需求——固然，代價就是更復雜web

入門

學習正則表達式的最好方法是從例子開始，理解例子以後再本身對例子進行修改，實驗。下面給出了很多簡單的例子，並對它們做了詳細的說明。正則表達式

假設你在一篇英文小說裏查找hi，你可使用正則表達式hi。express

這幾乎是最簡單的正則表達式了，它能夠精確匹配這樣的字符串：由兩個字符組成，前一個字符是h,後一個是i。一般，處理正則表達式的工具會提供一個忽略大小寫的選項，若是選中了這個選項，它能夠匹配hi,HI,Hi,hI這四種狀況中的任意一種。asp.net

不幸的是，不少單詞裏包含hi這兩個連續的字符，好比him,history,high等等。用hi來查找的話，這裏邊的hi也會被找出來。若是要精確地查找hi這個單詞的話，咱們應該使用\bhi\b。工具

\b是正則表達式規定的一個特殊代碼（好吧，某些人叫它元字符，metacharacter），表明着單詞的開頭或結尾，也就是單詞的分界處。雖然一般英文的單詞是由空格，標點符號或者換行來分隔的，可是\b並不匹配這些單詞分隔字符中的任何一個，它只匹配一個位置。學習

假如你要找的是hi後面不遠處跟着一個Lucy，你應該用\bhi\b.*\bLucy\b。測試

這裏，.是另外一個元字符，匹配除了換行符之外的任意字符。網站

*一樣是元字符，不過它表明的不是字符，也不是位置，而是數量——它指定*前邊的內容能夠連續重複使用任意次以使整個表達式獲得匹配。編碼

所以，.*連在一塊兒就意味着任意數量的不包含換行的字符。如今\bhi\b.*\bLucy\b的意思就很明顯了：先是一個單詞hi,而後是任意個任意字符(但不能是換行)，最後是Lucy這個單詞。

若是同時使用其它元字符，咱們就能構造出功能更強大的正則表達式。好比下面這個例子：

0\d\d-\d\d\d\d\d\d\d\d匹配這樣的字符串：以0開頭，而後是兩個數字，而後是一個連字號「-」，最後是8個數字(也就是中國的電話號碼。固然，這個例子只能匹配區號爲3位的情形)。

這裏的\d是個新的元字符，匹配一位數字(0，或1，或2，或……)。-不是元字符，只匹配它自己——連字符(或者減號，或者中橫線，或者隨你怎麼稱呼它)。

爲了不那麼多煩人的重複，咱們也能夠這樣寫這個表達式：0\d{2}-\d{8}。這裏\d後面的{2}({8})的意思是前面\d必須連續重複匹配2次(8次)。

元字符

如今你已經知道幾個頗有用的元字符了，如\b,.,*，還有\d.正則表達式裏還有更多的元字符，好比\s匹配任意的空白符，包括空格，製表符(Tab)，換行符，中文全角空格等。\w匹配字母或數字或下劃線或漢字等。

下面來看看更多的例子：

\ba\w*\b匹配以字母a開頭的單詞——先是某個單詞開始處(\b)，而後是字母a,而後是任意數量的字母或數字(\w*)，最後是單詞結束處(\b)。

\d+匹配1個或更多連續的數字。這裏的+是和*相似的元字符，不一樣的是*匹配重複任意次(多是0次)，而+則匹配重複1次或更屢次。

\b\w{6}\b 匹配恰好6個字符的單詞。

元字符表1.經常使用的

代碼	說明
.	匹配除換行符之外的任意字符
\w	匹配字母或數字或下劃線或漢字
\s	匹配任意的空白符
\d	匹配數字
\b	匹配單詞的開始或結束
^	匹配字符串的開始
$	匹配字符串的結束

元字符^（和數字6在同一個鍵位上的符號）和$都匹配一個位置，這和\b有點相似。^匹配你要用來查找的字符串的開頭，$匹配結尾。這兩個代碼在驗證輸入的內容時很是有用，

好比一個網站若是要求你填寫的QQ號必須爲5位到12位數字時，可使用：^\d{5,12}$。

這裏的{5,12}和前面介紹過的{2}是相似的，只不過{2}匹配只能很少很多重複2次，{5,12}則是重複的次數不能少於5次，不能多於12次，不然都不匹配。

由於使用了^和$，因此輸入的整個字符串都要用來和\d{5,12}來匹配，也就是說整個輸入必須是5到12個數字，所以若是輸入的QQ號能匹配這個正則表達式的話，那就符合要求了。

和忽略大小寫的選項相似，有些正則表達式處理工具還有一個處理多行的選項。若是選中了這個選項，^和$的意義就變成了匹配行的開始處和結束處。

字符轉義

若是你想查找元字符自己的話，好比你查找.,或者*,就出現了問題：你沒辦法指定它們，由於它們會被解釋成別的意思。這時你就得使用\來取消這些字符的特殊意義。所以，你應該使用\.和\*。固然，要查找\自己，你也得用\\.

例如：deerchao\.net匹配deerchao.net，C:\\Windows匹配C:\Windows。

重複

你已經看過了前面的*,+,{2},{5,12}這幾個匹配重複的方式了。下面是正則表達式中全部的限定符(指定數量的代碼，例如*,{5,12}等)：

限定符 表2.經常使用的

代碼/語法	說明
*	重複零次或更屢次
+	重複一次或更屢次
?	重複零次或一次
{n}	重複n次
{n,}	重複n次或更屢次
{n,m}	重複n到m次

下面是一些使用重複的例子：

Windows\d+ 匹配Windows後面跟1個或更多數字

^\w+ 匹配一行的第一個單詞(或整個字符串的第一個單詞，具體匹配哪一個意思得看選項設置)

字符類

要想查找數字，字母或數字，空白是很簡單的，由於已經有了對應這些字符集合的元字符，可是若是你想匹配沒有預約義元字符的字符集合(好比元音字母a,e,i,o,u),應該怎麼辦？

很簡單，你只須要在方括號裏列出它們就好了，像[aeiou]就匹配任何一個英文元音字母，[.?!]匹配標點符號(.或?或!)。

咱們也能夠輕鬆地指定一個字符範圍，像[0-9]表明的含意與\d就是徹底一致的：一位數字；同理[a-z0-9A-Z_]也徹底等同於\w（若是隻考慮英文的話）。

下面是一個更復雜的表達式：\(?0\d{2}[) -]?\d{8}。

這個表達式能夠匹配幾種格式的電話號碼，像(010)88886666，或022-22334455，或02912345678等。咱們對它進行一些分析吧：首先是一個轉義字符\(,它能出現0次或1次(?),而後是一個0，後面跟着2個數字(\d{2})，而後是)或-或空格中的一個，它出現1次或不出現(?)，最後是8個數字(\d{8})。

分枝條件

不幸的是，剛纔那個表達式也能匹配010)12345678或(022-87654321這樣的「不正確」的格式。要解決這個問題，咱們須要用到分枝條件。正則表達式裏的分枝條件指的是有幾種規則，若是知足其中任意一種規則都應該當成匹配，具體方法是用|把不一樣的規則分隔開。聽不明白？不要緊，看例子：

0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字號分隔的電話號碼：一種是三位區號，8位本地號(如010-12345678)，一種是4位區號，7位本地號(0376-2233445)。

$0\d{2}$[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達式匹配3位區號的電話號碼，其中區號能夠用小括號括起來，也能夠不用，區號與本地號間能夠用連字號或空格間隔，也能夠沒有間隔。你能夠試試用分枝條件把這個表達式擴展成也支持4位區號的。

\d{5}-\d{4}|\d{5}這個表達式用於匹配美國的郵政編碼。美國郵編的規則是5位數字，或者用連字號間隔的9位數字。之因此要給出這個例子是由於它能說明一個問題：使用分枝條件時，要注意各個條件的順序。若是你把它改爲\d{5}|\d{5}-\d{4}的話，那麼就只會匹配5位的郵編(以及9位郵編的前5位)。緣由是匹配分枝條件時，將會從左到右地測試每一個條件，若是知足了某個分枝的話，就不會去再管其它的條件了。

分組

咱們已經提到了怎麼重複單個字符（直接在字符後面加上限定符就好了）；但若是想要重複多個字符又該怎麼辦？你能夠用小括號來指定子表達式(也叫作分組)，而後你就能夠指定這個子表達式的重複次數了，你也能夠對子表達式進行其它一些操做(後面會有介紹)。

(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式，請按下列順序分析它：\d{1,3}匹配1到3位的數字，(\d{1,3}\.){3}匹配三位數字加上一個英文句號(這個總體也就是這個分組)重複3次，最後再加上一個一到三位的數字(\d{1,3})。

不幸的是，它也將匹配256.300.888.999這種不可能存在的IP地址。若是能使用算術比較的話，或許能簡單地解決這個問題，可是正則表達式中並不提供關於數學的任何功能，因此只能使用冗長的分組，選擇，字符類來描述一個正確的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?，這裏我就不細說了，你本身應該能分析得出來它的意義。

反義

有時須要查找不屬於某個能簡單定義的字符類的字符。好比想查找除了數字之外，其它任意字符都行的狀況，這時須要用到反義：

表3.經常使用的反義代碼

代碼/語法	說明
\W	匹配任意不是字母，數字，下劃線，漢字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非數字的字符
\B	匹配不是單詞開頭或結束的位置
[^x]	匹配除了x之外的任意字符
[^aeiou]	匹配除了aeiou這幾個字母之外的任意字符

例子：\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括號括起來的以a開頭的字符串。

後向引用

使用小括號指定一個子表達式後，匹配這個子表達式的文本(也就是此分組捕獲的內容)能夠在表達式或其它程序中做進一步的處理。默認狀況下，每一個分組會自動擁有一個組號，規則是：從左向右，以分組的左括號爲標誌，第一個出現的分組的組號爲1，第二個爲2，以此類推。

後向引用用於重複搜索前面某個分組匹配的文本。例如，\1表明分組1匹配的文本。難以理解？請看示例：

\b(\w+)\b\s+\1\b能夠用來匹配重複的單詞，像go go, 或者kitty kitty。這個表達式首先是一個單詞，也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b)，這個單詞會被捕獲到編號爲1的分組中，而後是1個或幾個空白符(\s+)，最後是分組1中捕獲的內容（也就是前面匹配的那個單詞）(\1)。

你也能夠本身指定子表達式的組名。要指定一個子表達式的組名，請使用這樣的語法：(?<Word>\w+)(或者把尖括號換成'也行：(?'Word'\w+)),這樣就把\w+的組名指定爲Word了。要反向引用這個分組捕獲的內容，你可使用\k<Word>,因此上一個例子也能夠寫成這樣：\b(?<Word>\w+)\b\s+\k<Word>\b。

使用小括號的時候，還有不少特定用途的語法。下面列出了最經常使用的一些：

表4.經常使用分組語法

分類	代碼/語法	說明
捕獲	(exp)	匹配exp,並捕獲文本到自動命名的組裏
(?<name>exp)	匹配exp,並捕獲文本到名稱爲name的組裏，也能夠寫成(?'name'exp)
(?:exp)	匹配exp,不捕獲匹配的文本，也不給此分組分配組號
零寬斷言	(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp後面的位置
(?!exp)	匹配後面跟的不是exp的位置
(?<!exp)	匹配前面不是exp的位置
註釋	(?#comment)	這種類型的分組不對正則表達式的處理產生任何影響，用於提供註釋讓人閱讀

咱們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式，只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組裏面，也不會擁有組號。「我爲何會想要這樣作？」——好問題，你以爲爲何呢？

網上的資源及本文參考文獻

精通正則表達式(第3版)

微軟的正則表達式教程

System.Text.RegularExpressions.Regex類(MSDN)

專業的正則表達式教學網站(英文)

關於.Net下的平衡組的詳細討論（英文）

版本：v2.3.5 (2017-6-12) 做者：deerchao