學習正則 - golang實現

元字符:

表1.經常使用的元字符
代碼 說明
. 匹配除換行符之外的任意字符
\w 匹配字母或數字或下劃線或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配單詞的開始或結束
^ 匹配字符串的開始
$ 匹配字符串的結束
 
   

字符轉義:

若是你想查找元字符自己的話,好比你查找.,或者*,就出現了問題:你沒辦法指定它們,由於它們會被解釋成別的意思。這時你就得使用\來取消這些字符的特殊意義。所以,你應該使用\.\*。固然,要查找\自己,你也得用\\.golang

例如:deerchao\.net匹配deerchao.netC:\\Windows匹配C:\Windows正則表達式

重複:

你已經看過了前面的*,+,{2},{5,12}這幾個匹配重複的方式了。下面是正則表達式中全部的限定符(指定數量的代碼,例如*,{5,12}等):測試

表2.經常使用的限定符
代碼/語法 說明
* 重複零次或更屢次
+ 重複一次或更屢次
? 重複零次或一次
{n} 重複n次
{n,} 重複n次或更屢次
{n,m} 重複n到m次

下面是一些使用重複的例子:編碼

Windows\d+匹配Windows後面跟1個或更多數字spa

^\w+匹配一行的第一個單詞(或整個字符串的第一個單詞,具體匹配哪一個意思得看選項設置).net

字符類:

要想查找數字,字母或數字,空白是很簡單的,由於已經有了對應這些字符集合的元字符,可是若是你想匹配沒有預約義元字符的字符集合(好比元音字母a,e,i,o,u),應該怎麼辦?code

很簡單,你只須要在方括號裏列出它們就好了,像[aeiou]就匹配任何一個英文元音字母[.?!]匹配標點符號(.或?或!)regexp

咱們也能夠輕鬆地指定一個字符範圍,像[0-9]表明的含意與\d就是徹底一致的:一位數字;同理[a-z0-9A-Z_]也徹底等同於\w(若是隻考慮英文的話)。htm

下面是一個更復雜的表達式:\(?0\d{2}[) -]?\d{8}blog

「(」和「)」也是元字符,後面的分組節裏會提到,因此在這裏須要使用轉義

這個表達式能夠匹配幾種格式的電話號碼,像(010)88886666,或022-22334455,或02912345678等。咱們對它進行一些分析吧:首先是一個轉義字符\(,它能出現0次或1次(?),而後是一個0,後面跟着2個數字(\d{2}),而後是)-空格中的一個,它出現1次或不出現(?),最後是8個數字(\d{8})。

分枝條件:

不幸的是,剛纔那個表達式也能匹配010)12345678(022-87654321這樣的「不正確」的格式。要解決這個問題,咱們須要用到分枝條件。正則表達式裏的分枝條件指的是有幾種規則,若是知足其中任意一種規則都應該當成匹配,具體方法是用|把不一樣的規則分隔開。聽不明白?不要緊,看例子:

0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字號分隔的電話號碼:一種是三位區號,8位本地號(如010-12345678),一種是4位區號,7位本地號(0376-2233445)

\(?0\d{2}\)?[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達式匹配3位區號的電話號碼,其中區號能夠用小括號括起來,也能夠不用,區號與本地號間能夠用連字號或空格間隔,也能夠沒有間隔。你能夠試試用分枝條件把這個表達式擴展成也支持4位區號的。

\d{5}-\d{4}|\d{5}這個表達式用於匹配美國的郵政編碼。美國郵編的規則是5位數字,或者用連字號間隔的9位數字。之因此要給出這個例子是由於它能說明一個問題:使用分枝條件時,要注意各個條件的順序。若是你把它改爲\d{5}|\d{5}-\d{4}的話,那麼就只會匹配5位的郵編(以及9位郵編的前5位)。緣由是匹配分枝條件時,將會從左到右地測試每一個條件,若是知足了某個分枝的話,就不會去再管其它的條件了。

分組

咱們已經提到了怎麼重複單個字符(直接在字符後面加上限定符就好了);但若是想要重複多個字符又該怎麼辦?你能夠用小括號來指定子表達式(也叫作分組),而後你就能夠指定這個子表達式的重複次數了,你也能夠對子表達式進行其它一些操做(後面會有介紹)。

(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式,請按下列順序分析它:\d{1,3}匹配1到3位的數字(\d{1,3}\.){3}匹配三位數字加上一個英文句號(這個總體也就是這個分組)重複3次,最後再加上一個一到三位的數字(\d{1,3})。

IP地址中每一個數字都不能大於255. 常常有人問我, 01.02.03.04 這樣前面帶有0的數字, 是否是正確的IP地址呢? 答案是: 是的, IP 地址裏的數字能夠包含有前導 0 (leading zeroes).

不幸的是,它也將匹配256.300.888.999這種不可能存在的IP地址。若是能使用算術比較的話,或許能簡單地解決這個問題,可是正則表達式中並不提供關於數學的任何功能,因此只能使用冗長的分組,選擇,字符類來描述一個正確的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這裏我就不細說了,你本身應該能分析得出來它的意義。

反義

有時須要查找不屬於某個能簡單定義的字符類的字符。好比想查找除了數字之外,其它任意字符都行的狀況,這時須要用到反義

表3.經常使用的反義代碼
代碼/語法 說明
\W 匹配任意不是字母,數字,下劃線,漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是單詞開頭或結束的位置
[^x] 匹配除了x之外的任意字符
[^aeiou] 匹配除了aeiou這幾個字母之外的任意字符

例子:\S+匹配不包含空白符的字符串

<a[^>]+>匹配用尖括號括起來的以a開頭的字符串

後向引用

使用小括號指定一個子表達式後,匹配這個子表達式的文本(也就是此分組捕獲的內容)能夠在表達式或其它程序中做進一步的處理。默認狀況下,每一個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號爲標誌,第一個出現的分組的組號爲1,第二個爲2,以此類推。

呃……其實,組號分配還不像我剛說得那麼簡單:

  • 分組0對應整個正則表達式
  • 實際上組號分配過程是要從左向右掃描兩遍的:第一遍只給未命名組分配,第二遍只給命名組分配--所以全部命名組的組號都大於未命名的組號
  • 你可使用(?:exp)這樣的語法來剝奪一個分組對組號分配的參與權.

後向引用用於重複搜索前面某個分組匹配的文本。例如,\1表明分組1匹配的文本。難以理解?請看示例:

\b(\w+)\b\s+\1\b能夠用來匹配重複的單詞,像go go, 或者kitty kitty。這個表達式首先是一個單詞,也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b),這個單詞會被捕獲到編號爲1的分組中,而後是1個或幾個空白符(\s+),最後是分組1中捕獲的內容(也就是前面匹配的那個單詞)(\1)。

你也能夠本身指定子表達式的組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+)(或者把尖括號換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定爲Word了。要反向引用這個分組捕獲的內容,你可使用\k<Word>,因此上一個例子也能夠寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b

使用小括號的時候,還有不少特定用途的語法。下面列出了最經常使用的一些:

表4.經常使用分組語法
分類 代碼/語法 說明
捕獲 (exp) 匹配exp,並捕獲文本到自動命名的組裏
(?<name>exp) 匹配exp,並捕獲文本到名稱爲name的組裏,也能夠寫成(?'name'exp)
(?:exp) 匹配exp,不捕獲匹配的文本,也不給此分組分配組號
零寬斷言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp後面的位置
(?!exp) 匹配後面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
註釋 (?#comment) 這種類型的分組不對正則表達式的處理產生任何影響,用於提供註釋讓人閱讀

咱們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組裏面,也不會擁有組號。「我爲何會想要這樣作?」——好問題,你以爲爲何呢?

零寬斷言

地球人,是否是以爲這些術語名稱太複雜,太難記了?我也有同感。知道有這麼一種東西就好了,它叫什麼,隨它去吧!人若無名,即可專心練劍;物若無名,即可隨意取捨……

接下來的四個用於查找在某些內容(但並不包括這些內容)以前或以後的東西,也就是說它們像\b,^,$那樣用於指定一個位置,這個位置應該知足必定的條件(即斷言),所以它們也被稱爲零寬斷言。最好仍是拿例子來講明吧:

斷言用來聲明一個應該爲真的事實。正則表達式中只有當斷言爲真時纔會繼續進行匹配。

(?=exp)也叫零寬度正預測先行斷言,它斷言自身出現的位置的後面能匹配表達式exp。好比\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing之外的部分),如查找I'm singing while you're dancing.時,它會匹配singdanc

(?<=exp)也叫零寬度正回顧後發斷言,它斷言自身出現的位置的前面能匹配表達式exp。好比(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re之外的部分),例如在查找reading a book時,它匹配ading

假如你想要給一個很長的數字中每三位間加一個逗號(固然是從右邊加起了),你能夠這樣查找須要在前面和裏面添加逗號的部分:((?<=\d)\d{3})+\b,用它對1234567890進行查找時結果是234567890

下面這個例子同時使用了這兩種斷言:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)

負向零寬斷言

前面咱們提到過怎麼查找不是某個字符或不在某個字符類裏的字符的方法(反義)。可是若是咱們只是想要確保某個字符沒有出現,但並不想去匹配它時怎麼辦?例如,若是咱們想查找這樣的單詞--它裏面出現了字母q,可是q後面跟的不是字母u,咱們能夠嘗試這樣:

\b\w*q[^u]\w*\b匹配包含後面不是字母u的字母q的單詞。可是若是多作測試(或者你思惟足夠敏銳,直接就觀察出來了),你會發現,若是q出如今單詞的結尾的話,像Iraq,Benq,這個表達式就會出錯。這是由於[^u]總要匹配一個字符,因此若是q是單詞的最後一個字符的話,後面的[^u]將會匹配q後面的單詞分隔符(多是空格,或者是句號或其它的什麼),後面的\w*\b將會匹配下一個單詞,因而\b\w*q[^u]\w*\b就能匹配整個Iraq fighting負向零寬斷言能解決這樣的問題,由於它只匹配一個位置,並不消費任何字符。如今,咱們能夠這樣來解決這個問題:\b\w*q(?!u)\w*\b

零寬度負預測先行斷言(?!exp)斷言此位置的後面不能匹配表達式exp。例如:\d{3}(?!\d)匹配三位數字,並且這三位數字的後面不能是數字\b((?!abc)\w)+\b匹配不包含連續字符串abc的單詞

同理,咱們能夠用(?<!exp),零寬度負回顧後發斷言斷言此位置的前面不能匹配表達式exp(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字

請詳細分析表達式(?<=<(\w+)>).*(?=<\/\1>),這個表達式最能表現零寬斷言的真正用途。

一個更復雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內裏的內容(?<=<(\w+)>)指定了這樣的前綴被尖括號括起來的單詞(好比多是<b>),而後是.*(任意的字符串),最後是一個後綴(?=<\/\1>)。注意後綴裏的\/,它用到了前面提過的字符轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣若是前綴其實是<b>的話,後綴就是</b>了。整個表達式匹配的是<b>和</b>之間的內容(再次提醒,不包括前綴和後綴自己)。

註釋

小括號的另外一種用途是經過語法(?#comment)來包含註釋。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)

要包含註釋的話,最好是啓用「忽略模式裏的空白符」選項,這樣在編寫表達式時能任意的添加空格,Tab,換行,而實際使用時這些都將被忽略。啓用這個選項後,在#後面到這一行結束的全部文本都將被當成註釋忽略掉。例如,咱們能夠前面的一個表達式寫成這樣:

      (?<=    # 斷言要匹配的文本的前綴
      <(\w+)> # 查找尖括號括起來的字母或數字(即HTML/XML標籤)
      )       # 前綴結束
      .*      # 匹配任意文本
      (?=     # 斷言要匹配的文本的後綴
      <\/\1>  # 查找尖括號括起來的內容:前面是一個"/",後面是先前捕獲的標籤
      )       # 後綴結束

golang 實現
 1 package lib
 2 
 3 import (
 4     "regexp"
 5 )
 6 
 7 func IsEmail(email string) bool {
 8     if email != "" {
 9         if isOk, _ := regexp.MatchString("^[_a-z0-9-]+(\\.[_a-z0-9-]+)*@[a-z0-9-]+(\\.[a-z0-9-]+)*(\\.[a-z]{2,4})$", email); isOk {
10             return true
11         }
12     }
13 
14     return false
15 }
16 
17 func IsPhone(phoneStr string) bool {
18     if phoneStr != "" {
19         if isOk, _ := regexp.MatchString(`^\([\d]{3}\) [\d]{3}-[\d]{4}$`, phoneStr); isOk {
20             return isOk
21         }
22     }
23 
24     return false
25 }
相關文章
相關標籤/搜索