正則表達式學習二

一、字符轉義正則表達式

若是想查找元字符自己的話,好比查找.,或者*,就出現了問題,由於它們會被解釋成別的意思。這時就得使用\來取消這些字符的特殊意義。測試

所以,應該使用\.和\*。固然,要查找\自己,也得用\\。spa

 

二、重複code

經常使用的限定符ci

代碼/語法 說明
* 重複零次或更屢次
+ 重複一次或更屢次
? 重複零次或一次
{n} 重複n次
{n,} 重複n次或更屢次
{n,m} 重複n到m次

 

三、字符類字符串

要想查找數字,字母或數字,空白是很簡單的,由於已經有了對應這些字符集合的元字符,可是若是想匹配沒有預約義元字符的字符集合(好比元音字母a,e,i,o,u),應該怎麼辦?io

很簡單,只須要在方括號裏列出它們就好了,像[aeiou]就匹配任何一個英文元音字母,[.?!]匹配標點符號(.或?或!)。table

也能夠輕鬆地指定一個字符範圍,像[0-9]表明的含意與\d就是徹底一致的:一位數字;同理[a-z0-9A-Z_]也徹底等同於\w(若是隻考慮英文的話)。class

 

四、分支條件搜索

分枝條件指的是有幾種規則,若是知足其中任意一種規則都應該當成匹配,具體方法是用|把不一樣的規則分隔開。

使用分枝條件時,要注意各個條件的順序。匹配分枝條件時,將會從左到右地測試每一個條件,若是知足了某個分枝的話,就不會去再管其它的條件了。

0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字號分隔的電話號碼:一種是三位區號,8位本地號(如010-12345678),一種是4位區號,7位本地號(0376-2233445)。

 

 

五、分組

若是想要重複多個字符又該怎麼辦?能夠用小括號來指定子表達式(也叫作分組),而後你就能夠指定這個子表達式的重複次數了,你也能夠對子表達式進行其它一些操做。

(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式,請按下列順序分析它:\d{1,3}匹配1到3位的數字,(\d{1,3}\.){3}匹配三位數字加上一個英文句號(這個總體也就是這個分組)重複3次,最後再加上一個一到三位的數字(\d{1,3})。

 

六、反義
有時須要查找不屬於某個能簡單定義的字符類的字符。好比想查找除了數字之外,其它任意字符都行的狀況,這時須要用到反義

經常使用的反義代碼

代碼/語法 說明
\W 匹配任意不是字母,數字,下劃線,漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是單詞開頭或結束的位置
[^x] 匹配除了x之外的任意字符
[^aeiou] 匹配除了aeiou這幾個字母之外的任意字符

 

七、後向引用

使用小括號指定一個子表達式後,匹配這個子表達式的文本(也就是此分組捕獲的內容)能夠在表達式或其它程序中做進一步的處理。默認狀況下,每一個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號爲標誌,第一個出現的分組的組號爲1,第二個爲2,以此類推。

後向引用用於重複搜索前面某個分組匹配的文本。例如,\1表明分組1匹配的文本。

  • 分組0對應整個正則表達式
  • 實際上組號分配過程是要從左向右掃描兩遍的:第一遍只給未命名組分配,第二遍只給命名組分配--所以全部命名組的組號都大於未命名的組號
  • 你可使用(?:exp)這樣的語法來剝奪一個分組對組號分配的參與權

 經常使用分組語法

分類 代碼/語法 說明
捕獲 (exp) 匹配exp,並捕獲文本到自動命名的組裏
(?<name>exp) 匹配exp,並捕獲文本到名稱爲name的組裏,也能夠寫成(?'name'exp)
(?:exp) 匹配exp,不捕獲匹配的文本,也不給此分組分配組號
零寬斷言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp後面的位置
(?!exp) 匹配後面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
註釋 (?#comment) 這種類型的分組不對正則表達式的處理產生任何影響,用於提供註釋讓人閱讀

八、零寬斷言

查找在某些內容(但並不包括這些內容)以前或以後的東西,也就是說像\b,^,$那樣用於指定一個位置,這個位置應該知足必定的條件(即斷言),所以被稱爲零寬斷言。最好仍是拿例子來講明吧:

(?=exp)也叫零寬度正預測先行斷言,它斷言自身出現的位置的後面能匹配表達式exp。好比\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing之外的部分),如查找I'm singing while you're dancing.時,它會匹配sing和danc。

(?<=exp)也叫零寬度正回顧後發斷言,它斷言自身出現的位置的前面能匹配表達式exp。好比(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re之外的部分),例如在查找reading a book時,它匹配ading。

斷言用來聲明一個應該爲真的事實。正則表達式中只有當斷言爲真時纔會繼續進行匹配。

 

九、負向零寬斷言
\b\w*q[^u]\w*\b匹配包含後面不是字母u的字母q的單詞。可是若是多作測試,就會發現,若是q出如今單詞的結尾的話,像Iraq,Benq,這個表達式就會出錯。這是由於[^u]總要匹配一個字符,因此若是q是單詞的最後一個字符的話,後面的[^u]將會匹配q後面的單詞分隔符(多是空格,或者是句號或其它的什麼),後面的\w*\b將會匹配下一個單詞,因而\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向零寬斷言能解決這樣的問題,由於它只匹配一個位置,並不消費任何字符。如今,咱們能夠這樣來解決這個問題:\b\w*q(?!u)\w*\b。

零寬度負預測先行斷言(?!exp),斷言此位置的後面不能匹配表達式exp。例如:\d{3}(?!\d)匹配三位數字,並且這三位數字的後面不能是數字;\b((?!abc)\w)+\b匹配不包含連續字符串abc的單詞。

同理,能夠用(?<!exp),零寬度負回顧後發斷言來斷言此位置的前面不能匹配表達式exp:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字。

 

十、註釋:

小括號的另外一種用途是經過語法(?#comment)來包含註釋。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。

要包含註釋的話,最好是啓用「忽略模式裏的空白符」選項,這樣在編寫表達式時能任意的添加空格,Tab,換行,而實際使用時這些都將被忽略。啓用這個選項後,在#後面到這一行結束的全部文本都將被當成註釋忽略掉。

 

十一、貪婪與懶惰
當正則表達式中包含能接受重複的限定符時,一般的行爲是(在使整個表達式能獲得匹配的前提下)匹配儘量多的字符。以這個表達式爲例:a.*b,它將會匹配最長的以a開始,以b結束的字符串。若是用它來搜索aabab的話,它會匹配整個字符串aabab。這被稱爲貪婪匹配。

有時,更須要懶惰匹配,也就是匹配儘量少的字符。前面給出的限定符均可以被轉化爲懶惰匹配模式,只要在它後面加上一個問號?。這樣.*?就意味着匹配任意數量的重複,可是在能使整個匹配成功的前提下使用最少的重複。如今看看懶惰版的例子吧:

a.*?b匹配最短的,以a開始,以b結束的字符串。若是把它應用於aabab的話,它會匹配aab(第一到第三個字符)和ab(第四到第五個字符)。

懶惰限定符

代碼/語法 說明
*? 重複任意次,但儘量少重複
+? 重複1次或更屢次,但儘量少重複
?? 重複0次或1次,但儘量少重複
{n,m}? 重複n到m次,但儘量少重複
{n,}? 重複n次以上,但儘量少重複
相關文章
相關標籤/搜索