C#中正則表達式的使用

目前爲止,許多編程語言和工具都包含對正則表達式的支持,C#也不例外,C#基礎類庫中包含有一個命名空間(System.Text.RegularExpressions)和一系列能夠充分發揮規則表達式威力的類(Regex、Match、Group等)。那麼,什麼是正則表達式,怎麼定義正則表達式呢?正則表達式

 

1、正則表達式基礎編程

          什麼是正則表達式編程語言

   在編寫字符串的處理程序時,常常會有查找符合某些複雜規則的字符串的須要。正則表達式就是用於描述這些規則的工具。換句話說,正則表達式就是記錄文本規則的代碼。函數

    一般,咱們在使用WINDOWS查找文件時,會使用通配符(*和?)。若是你想查找某個目錄下的全部Word文檔時,你就可使用*.doc進行查找,在這裏,*就被解釋爲任意字符串。和通配符相似,正則表達式也是用來進行文本匹配的工具,只不過比起通配符,它能更精確地描述你的需求——固然,代價就是更復雜。工具

         一個簡單的例子——驗證電話號碼學習

學習正則表達式的最好方法是從例子開始,下面咱們從驗證電話號碼開始,一步一步的瞭解正則表達式。spa

在咱們國家,電話號碼(如:0379-65624150)一般包含3到4爲以0開頭的區號和一個7或8爲的號碼,中間一般以連字符’-’隔開。在這個例子中,首先咱們要介紹一個元字符\d,它用來匹配一個0到9的數字。這個正則表達式能夠寫成:^0\d{2,3}-\d{7,8}$對象

咱們來對他進行分析,0匹配數字「0」,\d匹配一個數字,{2,3}表示重複2到3次,-只匹配」-」自身,接下來的\d一樣匹配一個數字,而 {7,8}則表示重複7到8次。固然,電話號碼還能夠寫成 (0379)65624150,這裏就交給讀者完成。ci

      A. 元字符文檔

在上面的例子中,咱們接觸到了一個元字符\d,正如你所想的,正則表達式還有不少像\d同樣的元字符,下表列出了一些經常使用的元字符:

 

元字符

說明

.

匹配除換行符之外的任意字符

\b

匹配單詞的開始或結束

\d

匹配數字

\s

匹配任意的空白符

\w

匹配字母或數字或下劃線或漢字

^

匹配字符串的開始

$

匹配字符串的結束

表一、經常使用的元字符

       B. 轉義字符

   若是你想查找元字符自己的話,好比你查找.,或者*,就出現了問題:你沒辦法指定它們,由於它們會被解釋成別的意思。這時你就得使用\來取消這些字符的特殊意義。所以,你應該使用\.和\*。固然,要查找\自己,你也得用\\.

例如:unibetter\.com匹配unibetter.com,C:\\Windows匹配C:\Windows。

       C.  限定符

限定符又叫重複描述字符,表示一個字符要出現的次數。好比咱們在匹配電話號碼時使用的{3,4}就表示出現3到4次。經常使用的限定符有:

 

限定符

說明

*

重複零次或更屢次

+

重複一次或更屢次

?

重複零次或一次

{n}

重複n次

{n,}

重複n次或更屢次

{n,m}

重複n到m次

表二、經常使用的限定符

2、.NET中正則表達式的支持

    System.Text.RegularExpressions 命名空間包含一些類,這些類提供對 .NET Framework 正則表達式引擎的訪問。該命名空間提供正則表達式功能,能夠從運行在 Microsoft .NET Framework 內的任何平臺或語言中使用該功能。

 

    A、在C#中使用正則表達式

在瞭解了C#中支持正則表達式的類後,咱們一塊兒來將上面提到的驗證電話號碼的正則表達式寫入C#代碼中,實現電話號碼的驗證。

第一步,創建一個名爲SimpleCheckPhoneNumber的Windows項目。

第二步,引入System.Text.RegularExpressions命名空間。

第三步,寫出正則表達式。這裏的正則表達式就是上面的驗證號碼的字符串。因爲上面的字符串只能驗證用連字符鏈接區號和號碼的方式的電話號碼,因此咱們作了一些修改:0\d{2,3}-\d{7,8}|\(0\d{2,3}\)\d{7,8}。在這個表達式中,| 號面的一部分是咱們上面提到過的,後面一部分是用來驗證(0379)65624150這種電話號碼寫法的。因爲 (  和  ) 也是元字符,因此要用轉義字符。| 表示分支匹配,要麼匹配前面的一部分,要麼匹配後面的一部分。

第四步,正則表達式構造一個Regex類。

第五步,使用Regex類的IsMatch方法驗證匹配。Regex類的IsMatch()方法返回一個bool值,若是有匹配項,返回true,不然返回false。

 

3、正則表達式進階

     A. 分組

在匹配電話號碼的時候,咱們已經用到太重複單個字符。下面咱們來了解如何使用分組來匹配一個IP地址。

衆所周知,IP地址是四段點分十進制的字符串表示的。因此,咱們能夠經過地址的分組,來進行匹配。首先,咱們來匹配第一段:2[0-4]\d|25[0-5]|[01]?\d\d? 這段正則表達式能夠匹配IP地址的一段數字。2[0-4]\d 匹配以2開頭,十位爲0到4,個位爲任何數字的三位字段,25[0-5] 匹配以25 開頭,個位爲0到5 的三位字段,[01]?\d\d? 匹配任何以1者0頭,個位和十位爲任何數子的字段。? 表示出現零次或一次。因此, [01] 和 最後一個 \d 均可以不出現,若是咱們再向這個字符串後面添加一個 \. 來匹配 . 就能夠劃分一個段了。如今,咱們把 2[0-4]\d|25[0-5]|[01]?\d\d?\. 當作一個分組,就能夠寫成 (2[0-4]\d|25[0-5]|[01]?\d\d?\.) 。接下來咱們就來使用這個分組。將這個分組重複兩次,而後,再使用 2[0-4]\d|25[0-5]|[01]?\d\d? 就能夠了。完整的正則表達式爲: (2[0-4]\d|25[0-5]|[01]?\d\d?\.){3}2[0-4]\d|25[0-5]|[01]?\d\d?

 

    B.後向引用

在咱們瞭解分組之後,咱們就可使用後向引用了。所謂後向引用,就是使用前面捕獲的結果,對後面的字符進行匹配。多用於匹配重複字符。好比匹配 go go 這樣的重複字符。咱們就可使用 (go) \1來進行匹配。

默認狀況下,每一個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號爲標誌,第一個出現的分組的組號爲1,第二個爲2,以此類推。固然,你也能夠本身指定子表達式的組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+)(或者把尖括號換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定爲Word了。要反向引用這個分組捕獲的內容,你可使用\k<Word>,因此上一個例子也能夠寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b。

自定義組名還有另一個好處,在咱們的C#程序中,若是須要獲得分組的值,咱們就能夠很明確的使用咱們定義的分組的名字來獲得,而沒必要使用下標。

當咱們並不想使用後向引用時,是不須要捕獲組記憶任何東西的,這種狀況下就能夠利用(?:nocapture)語法來主動地告訴正則表達式引擎,不要把圓括號的內容看成捕獲組,以便提升效率。

    C.零寬斷言

在前面的元字符介紹中,咱們已經知道了有這樣一類字符,能夠匹配一句話的開始、結束(^ $)或者匹配一個單詞的開始、結束(\b)。這些元字符只匹配一個位置,指定這個位置知足必定的條件,而不是匹配某些字符,所以,它們被成爲 零寬斷言。所謂零寬,指的是它們不與任何字符相匹配,而匹配一個位置;所謂斷言,指的是一個判斷。正則表達式中只有當斷言爲真時纔會繼續進行匹配。

在有些時候,咱們精確的匹配一個位置,而不只僅是句子或者單詞,這就須要咱們本身寫出斷言來進行匹配。下面是斷言的語法:

 

斷言語法

說明

(?=pattern)

前向確定斷言,匹配pattern前面的位置

(?!pattern)

前向否認斷言,匹配後面不是pattern的位置

(?<=pattern)

後向確定斷言,匹配pattern後面的位置

(?<!pattern)

後向否認斷言,匹配前面不是pattern的位置

表三、斷言的語法及說明

很難理解嗎?咱們來看一個例子。

有一個標籤:<book>,咱們想要獲得標籤<book>的標籤名(book),這個時候,咱們就可使用斷言來處理。看下面這個表達式:(?<=\<)(?<tag>\w*)(?=\>) ,使用這個表達式,能夠匹配< 和 >之間的字符,也就是這裏的book。使用斷言還還能夠寫出更加複雜的表達式,這裏就再也不舉例了。

還有一點很是重要,就是斷言語法所使用的圓括號並不做爲捕獲組,因此不能使用編號或命名來對它進行引用。

     D.貪婪與懶惰

當正則表達式中包含能接受重複的限定符時,一般的行爲是(在使整個表達式能獲得匹配的前提下)匹配儘量多的字符。來看一下這個表達式:a\w*b ,用它來匹配字符串 aabab 時,獲得的匹配結果是 aabab 。這種匹配被稱爲貪婪匹配

有些時候,咱們但願讓它儘量的少重複,即用上面的例子獲得的匹配結果是 aab,這時咱們就要使用懶惰匹配懶惰匹配須要在重複限定符的後面添加一個 ? 符號,上面的表達式就能夠寫成:a\w*?b 咱們再來匹配字符串 aabab時,獲得的匹配結果是 aab 和 ab 。

也許這個時候你要問,ab 比aab重複次數更少,爲何不先匹配ab呢?其實在正則表達式中還有比貪婪/懶惰優先級更高的規則:最早開始的匹配擁有最高的優先權——The match that begins earliest wins。

     E.註釋

語法:(?#comment)

   例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)

   注意:若是使用註釋,則須要格外注意不要在註釋的小括號前面出現空格、換行符等一些字符,若是能夠忽略這些字符,則最好使用「忽略模式裏的空白符」選項,即C#中RegexOptions枚舉的IgnorePatternWhitespace選項(C#中的RegexOptions枚舉下面將會提到)。

      F. C#中的處理選項

在C#中,可使用RegexOptions 枚舉來選擇C#對正則表達式的處理方式。下面是MSDN中RegexOptions 枚舉的成員介紹:

      C#中Capture類、Group類、Match類

Capture:表示單個子表達式捕獲中的結果。Capture類表示單個成功捕獲中的一個子字符串。該類沒有公共構造函數,能夠從Group類或者Match類中獲得一個Capture類的對象集合。Capture類有三個經常使用屬性,分別是Index、Length和Value。Index表示捕獲的子字符串的第一個字符的位置。Length表示捕獲的子字符串的長度,Value表示捕獲的子字符串。

Group:表示正則表達式中分組的信息。該類提供了對分組匹配的正則表達式的支持。該類沒有公共構造函數。能夠從Match類中獲得一個Group類的集合。若是正則表達式中的分組已命名,則可使用名字對其進行訪問,若是沒有命名,則能夠採用下標訪問。注意:每個Match的Groups集合中的第0個元素(Groups[0])都是這個Match捕獲的字符串,也是Capture的Value。

Match:表示單個正則表達式匹配的結果。該類一樣沒有公共構造函數,能夠從Regex類的Match()方法獲得該類的一個實例,也可使用Regex類的Matches()方法獲得給類的一個集合。

這三個類都能表示單個正則表達式匹配的結果,但Match類獲得的更爲詳細,包含捕獲和分組信息。因此,Match類在這個三個類中是最經常使用的。

相關文章
相關標籤/搜索