熟練掌握正則表達式是每一個程序員的基礎要求,對於每一個初學者來講會被正則表達式一連串字符弄得頭暈眼花。博主便會如此,一直對正則表達式有種莫名的恐懼。近來看到另外一位博友寫的 《php正則表達式》一文獲益良多,對其通配符以及捕獲數據兩個章節頗感興趣。這兩個章節正好涉及到的是正則表達式的捕獲組與非捕獲組的知識,於是本文來細細探討下這部分知識。php
咱們知道,在正則表達式下(x) 表示匹配'x'並記錄匹配的值。這只是比較通俗的說法,甚至說這是不嚴謹的說法,只有()捕獲組形式纔會記錄匹配的值。非捕獲組則只匹配,不記錄。html
捕獲組:程序員
(pattern)正則表達式
這種形式是咱們見到最多的一種形式,匹配並返回捕獲結果,能夠嵌套,組號順序從左到右依次排列‘。spa
$regex = '/(ab(c)+)+d(e)?/'; $str = 'abccde'; $matches = array(); if(preg_match($regex, $str, $matches)){ print_r($matches); }
匹配結果:調試
Array ( [0] => abccde [1] => abcc [2] => c [3] => e )
(?P<name>pattern)code
這種方式雖然看起來在構造正則表達式的時候略微複雜一點,但實質上與(pattern)同樣。最大的優點體如今對結果處理上,程序員能夠直接根據本身設置的<name>直接快速調用結果,而不用再去數須要的結果在第幾個子組了。htm
$regex = '/(?P<group1>\w(?P<group2>\w))abc(?P<group3>\w)45/'; $str = 'fsabcd45'; $matches = array(); if(preg_match($regex, $str, $matches)){ print_r($matches); }
匹配結果:blog
Array ( [0] => fsabcd45 [group1] => fs [1] => fs [group2] => s [2] => s [group3] => d [3] => d )
\num字符串
num是一個整數,是對捕獲組的反向引用。 例如\2表示第二個子組匹配值,\表示第一個子組匹配值
$regex = '/(\w)(\w)\2\1/'; $str = 'abba'; $matches = array(); if(preg_match($regex, $str, $matches)){ print_r($matches); }
匹配結果:
Array ( [0] => abba [1] => a [2] => b )
注意,這裏我疏忽了一個小細節,一開始我第同樣代碼是 $regex = 「/(\w)(\w)\2\1/」; 結果返回無匹配結果,通過調試後,發現這裏只能用' '。'與" 用法差異你們仍是須要注意下。
\k< name >
瞭解了(?P<name>pattern)與\num,這個就不難理解了。\k< name >是對命名捕獲組的反向引用。其中 name 是捕獲組名。
$regex='/(?P<name>\w)abc\k<name>/'; $str="fabcf"; echo preg_match_all($regex, $str,$matches); print_r($matches);
匹配結果:
Array ( [0] => Array ( [0] => fabcf ) [name] => Array ( [0] => f ) [1] => Array ( [0] => f ) )
非捕獲組:
(?:pattern)
與(pattern)的惟一區別是,匹配pattern但不捕獲匹配結果。這裏便再也不舉例。
還有四種方式實際上講的是一個事情:預查。
預查分爲正向預查與反向預查。根據字面理解,正向預查是判斷匹配字符串後面某些字符存在與否,而反向預查則是判斷匹配字符串前面某些字符存在與否。
正向預查判斷存在使用(?=pattern),判斷不存在使用(?!pattern)。
反向預查判斷存在使用(?<=pattern),判斷不存在使用(?<!pattern)。
$regx='/(?<=a)bc(?=d)/'; $str="abcd ebcd abce ebca"; if(preg_match_all($regx, $str, $matches)){ print_r($matches); }
匹配結果:
Array ( [0] => Array ( [0] => bc) )
這四種形式使用的是否只要注意好相對匹配字符串的位置和斷言確定仍是否認,就會很快掌握。
另外,預查的四種形式是零寬度的,匹配的時候只作一個判斷,自己是不佔位置的。/HE(?=L)LLO/ 與HELLO匹配,而/HE(?=L)LO/與HELLO是不匹配的。畢竟但從字節數上二者就是不匹配的,前者只有4個,然後者有5個。