引用類型--RegExp類型

ECMAScript經過RegExp類型來支持正則表達式。使用下面語法就能夠建立一個正則表達式。正則表達式

var expression =/pattern/flags;

模式(pattern):能夠是任何簡單或複雜的正則表達式,能夠包含字符類、限定符、分組、向前查找以及反向引用。express

標誌(flags):每一個正則表達式均可以有一或多個標誌(flags),用以標明正則表達式的行爲。正則表達式的匹配模式支持下列3個標誌:數組

  1. g:表示全局(global)模式,即模式將被應用與全部字符串,而非在發現第一個匹配項時當即中止;
  2. i:表示不區分大小寫模式(case-insensitive)模式,即在肯定匹配時忽略模式與字符串的大小寫;
  3. m:表示多行(nultiline)模式,即在到達一行文本末尾時還會繼續查找系一行中是否存在與模式匹配的項。

所以,一個正則表達式就是一個模式與上述3個標誌的組合體。不一樣組合產生不一樣結果,如:瀏覽器

    /* 匹配字符串中全部「at」的實例*/
    var pattern1 = /at/g;

    /**  匹配第一個「bat」或「cat」,不區分大小寫*/
    var pattern2 = /[bc]at/i;

    /*  匹配全部以「at」結尾的3個字符的組合,不分區大小寫*/
     var pattern3 = /.at/gi;

與其餘語言中的正則表達式相似,模式中使用的全部元字符都必須轉義。正則表達式中的元字符包括:函數

(  [  {  \  ^  $  |  ) ?  *  + .  ]  }測試

這些元字符在正則表達式中都有一或多種特殊用途,所以想若是想要匹配字符串中包含的這些字符就必須對它們進行轉義。如:spa

/*  匹配第一個「bat」或「cat」,不區分大小寫 */
var pattern1 = /[bc]at/i;

/*  匹配第一個「[bc]at」,不區分大小寫*/
var pattern2 = /\[bc\]at/i;

/*  匹配全部以「at」結尾的3個字符的組合,不分區大小寫*/
var pattern3 = /.at/gi;

/*  匹配全部以「.at」結尾的3個字符的組合,不分區大小寫*/
var pattern4 = /\.at/gi;

前面舉的例子都是以字面量形式來定義的正則表達式。另外一種建立正則表達式的方式是使用RegExp構造函數,它接收兩個參數:一個是要匹配的字符串模式,另外一個是可選的標誌字符串。可使用字面量定義的任何表達式,均可以使用構造函數來定義,如:設計

var pattern = new RegExp(「[bc]at」 , 「i」);
//等同於下面字面量形式的正則表達式
var pattern = 「/[bc]at/i」;

在使用構造函數時,傳遞的兩個參數都是字符串(不能把正則表達式字面量傳遞給RegExp構造函數)。因爲RegExp構造函數的模式參數是字符串,因此在某些狀況下要對字符串進行雙重轉義全部元字符都必須從雙重轉義,那些已經轉義過的字符也是如此,例如\n(字符\在字符串中一般被轉義爲\\,而在正則表達式字符串中就會變成\\\\)。下表給出了一些模式,左邊是這些模式的字面量形式,右邊是使用RegExp構造函數定義相同模式時使用的字符串。code

字面量模式對象

等價的字符串

/\[bc\]at/

「\\[bc\\]at」

/\.at/

「\\.at」

/name\/age/

「name\\/age」

/\d/\d{1,2}/

「\\d.\\d{1,2}」

/\w\\hello\\123/

「」\\w\\\\hello\\\\123

使用正則表達式字面量和使用RegExp構造函數的正則表達式不同。在ECMAScript 3中,正則表達式字面量始終會共享同一個RegExp實例,而使用構造函數建立的每個RegExp實例都是一個新實例。如:

var re = null,i;
for(i=0;i<10;i++){
    re=/cat/g;
    re.test(「catastrophe」);
}
for(i=0;i<10;i++){
    re=newRfgExp(「cat」 , 「g」);
    re.test(「catastrophe」);
}

在第一個循環中,即便是循環體中指定的,但實際上只爲/cat/建立了一個RegExp實例。因爲實例屬性不會重置,因此在循環中再次調用test()方法會失敗。這是由於第一次調用test()找到了」cat」,但第二次調用是從索引爲3的字符(上一次匹配的末尾)開始的,因此就找不到它了。因爲會測試到字符串末尾,因此下一次再調用test()就又從頭開始了。

第二個循環使用RegExp構造函數在每次循環中建立正則表達式。由於每次迭代都會建立一個新的RegExp實例,因此每次調用test()都會返回true。

ECMAScript5明確規定,使用正則表達式字面量必須直接調用RegExp構造函數同樣,每次都建立新的RegExp實例。IE9+、Firefox4+和Chrome都據此作出了修改。

RegExp實例屬性

RegExp的每一個實例都具備下列屬性,經過這些屬性能夠取得有關模式的各類信息。

  1. global:布爾值,表示是否設置了g標誌。
  2. ignoreCase:布爾值,表示是否設置了i標誌。
  3. lastIndex:整數,表示開始搜索下一個匹配項的字符位置,從0算起。
  4. multiline:布爾值:表示是否設置了m標誌。
  5. source:正則表達式的字符串表示,按照字面量形式而非傳入構造函數中的字符串模式返回。

經過這些屬性能夠獲知一個正則表達式的各方面信息,但卻沒有多大用處,由於這些信息所有包含在模式聲明中。

RegExp實例方法

  • exec():RegExp對象的主要方法是exec(),該方法是專門爲捕獲組而設計的。exec()接受一個參數,即要應用模式的字符串,而後返回包含第一個匹配項信息的數組;或者在沒有匹配項的狀況下返回null。返回的數組雖然是Array的實例,但包含兩個額外的屬性:index和Input。其中,index表示匹配項在字符串中的位置,而input表示應用正則表達式的字符串。在數組中,第一項是與整個模式匹配的字符串,其餘項是與模式中捕獲組匹配的字符串(若是模式中沒有捕獲組,則該數組只包含一項)。如:
    var text = "mom anddad and baby";
    var pattern = /mom( and dad( and baby)?)?/gi;
    var matches = pattern.exec(text);
    alert(matches.index);//0
    alert(matches.input);//mom and dad and baby
    alert(matches[0]);//mom and dad and baby
    alert(matches[1]);//and dad and baby
    alert(matches[2]);//and baby

    這個例子中的模式包含兩個捕獲組。最內部的捕獲組匹配」and baby」,而包含它的捕獲組匹配」and dad」或者」and dad and baby」。當把字符串傳入exec()方法以後,發現了一個匹配項。由於整個字符串自己與模式匹配,因此返回的數組matches的index屬性值爲0。數組中的第一項是匹配的整個字符串,第二項包含與第一個捕獲組匹配的內容,第三項包含與第二個捕獲組匹配的內容。

對於exec()方法而言,即便在模式中設置了全局標誌(g),它每次也只返回一個匹配項。在不設置全局標誌的狀況下,在同一個字符串上屢次調用exec()將始終返回第一個匹配項的信息。而在設置全局標誌的狀況下,每次調用exec()則都會在字符串中繼續查找新匹配項,如:

//非全局模式:返回第一個匹配項的信息
    var text = "cat,bat, sat, fat";
    var pattern1 = /.at/;
    var matches = pattern1.exec(text);
    alert(matches.index);//0
    alert(matches[0]);//cat
    alert(pattern1.lastIndex);//0 

    var matches = pattern1.exec(text);
    alert(matches.index);//0
    alert(matches[0]);//cat
    alert(pattern1.lastIndex);//0

//全局模式:在字符串中繼續查找新匹配項
    var pattern2 = /.at/g;
    var matches = pattern2.exec(text);
    alert(matches.index);//0
    alert(matches[0]);//cat
    alert(pattern2.lastIndex);//3
   
    var matches = pattern2.exec(text);
    alert(matches.index);//5
    alert(matches[0]);//bat
    alert(pattern2.lastIndex);//8

這個例子中的第一個模式pattern1不是全局模式,所以每次調用exec()返回的都是第一個匹配項(「cat」)。而第二個模式pattern2是全局模式,所以每次調用exec()都會返回字符串中的下一個匹配項,直至搜索到字符串末尾爲止。此外,還應該注意模式的lastIndex屬性的變化狀況。在全局模式匹配下,lastIndex的值在每次調用exec()後都會增長,而在非全局模式下則始終保持不變。

IE低版本的JavaScript實如今lastIndex屬性上存在誤差,即便在非屈居模式下,lastIndex屬性每次也會變化。可是在IE11環境下的測試結果如上面的測試代碼,測試結果與Chrome、Firefox4中的測試結果是一致的不存在誤差。

  • test():正則表達式的第二個方法是test(),它接收一個字符串參數。在模式與該參數匹配的狀況下返回true;不然,返回false。在只想知道目標字符串與某個模式是否匹配,但不要知道其文本內容的狀況下,使用這個方法很是方便。所以,test()方法常常被用在if語句中,如:
    var text = 「000-00-0000」;
    var pattern = /\d{3}-\d{2}-\d{4}/;
    if(pattern.test(text)){
         alert(「Thepattern was matched.」);
    }

    在這個例子中,使用正則表達式來測試了一個數字序列。若是輸入的文本模式匹配,則顯示一條消息。這種用法常常出如今驗證用戶輸入的狀況下,由於咱們只想知道輸入是否是有效,至於它爲何無效就可有可無了。

  • toLocaleString()、toString():RegExp實例繼承的toLocaleString()和toString()方法都會返回正則表達式的字面量,與建立正則表達式的方式無關。例如:
    var pattern = new RegExp(\\[bc\\]at , 「gi」);
    
    alert(pattern.toString());//      /\[bc\]at/gi
    alert(pattern.toLocaleString());//    /\[bc\]at/gi

    即便上例中的模式是經過調用RegExp構造函數建立的,toLocaleString()和toString()方法仍然會像它是以字面量形式建立的同樣顯示其字符串表示形式。

  • valueOf():正則表達式的valueOf()方法返回正則表達式自己。

RegExp構造函數屬性

RegExp構造函數包含一些屬性(這些屬性在其餘語言中被當作是靜態屬性)。這些屬性適用於做用域中的全部正則表達式,而且基於所執行的最近一次正則表達式操做而變化。關於這些屬性的另外一個獨特之處,就是能夠經過兩種方式訪問它們。換句話說,這些屬性分別有一個長屬性名和一個短屬性名(Opera瀏覽器是例外,它不支持短屬性名)。下表列出了RegExp構造函數的屬性。

長屬性名

短屬性名

說明

input

$_

最近一次要匹配的字符串。Opera爲實現此屬性

lastMatch

$&

最近一次的匹配項。Opera爲實現此屬性

lastParen

$+

最近一次匹配的捕獲組。Opera爲實現此屬性

leftContext

$`

input字符串中lastMatch以前的文本

multiline

$*

布爾值,表示是否全部表達式都使用多行模式。IE和Opera爲實現此屬性

rightContext

$’

input字符串中lastMatch以後的文本

使用這些屬性能夠從exec()或test()執行的操做中提取出更具體的信息。請看下面的例子:

     var text = "This has been a short summer";
     var pattern = /(.)hort/g;

     /*注意:Opera不支持input、lastMatch、lastParen和multiline屬性

,Chrome、IE不支持multiline屬性*/

     if(pattern.test(text)){
        alert(RegExp.input);//This has been a short summer
        alert(RegExp.leftContext);//This has been a
        alert(RegExp.rightContext);//summer
        alert(RegExp.lastMatch);//short
        alert(RegExp.lastParen);//s
        alert(RegExp.multiline);//(IE、Chrome)undefined;(Firefox)false
     }

如前所述,例子使用的長屬性名均可以用相應的短屬性名來代替。只不過,因爲這些短屬性名大都不是有效的ECMAScript標識符,即帶有特殊字符,所以必須經過方括號語法來訪問它們,如:

     var text = "This has been a short summer";
     var pattern = /(.)hort/g;
     /*注意:Opera不支持input、lastMatch、lastParen和multiline屬性,Chrome、IE不支持multiline屬性*/

     if(pattern.test(text)){
        alert(RegExp.$_);//This has been a short summer
        alert(RegExp["$`"]);//This has been a
        alert(RegExp["$'"]);//summer
        alert(RegExp["$&"]);//short
        alert(RegExp["$+"]);//s
        alert(RegExp["$*"]);//(IE、Chrome)undefined;(Firefox)false
     }
/*除了上面介紹的幾個屬性以外,還有多達9個用於存儲捕獲數組的構造函數屬性。
訪問這些屬性的語法是RegExp.$一、RegExp.$2……RegExp.$9,分別用於存儲第1、第二……第九個匹配的捕獲數組。
在調用exec()和test()方法時,這些屬性會被自動填充。而後,就能夠像下面這樣使用它們:
*/ var text = "This has been a short summer"; var pattern = /(..)or(.)/g; if(pattern.test(text)){ alert(RegExp.$1);//sh alert(RegExp.$2);//t }

這裏建立了一個包含兩個捕獲組的模式,並用該模式檢測了一個字符串。即便test()方法只返回一個布爾值,但RegExp構造函數的屬性$1和$2也會被匹配相應捕獲組的字符串自動填充。

模式的侷限性

儘管ECMAScript中的正則表達式功能仍是比較完備的,但仍然缺乏某些語言(特別是Perl)所支持的高級正則表達式特性。下面列出了ECMAScript正則表達式不支持的特性:

  1.  匹配字符串開始和結尾的\A和\Z錨
  2.  向後查找
  3. 並集和交集類
  4. 原子組
  5. Unicode支持(單個字符除外,如\uFFFF)
  6. 命名的捕獲組
  7.  s(single , 單行)和x(free-spacing, 無間隔)匹配模式
  8. 條件匹配
  9. 正則表達式註釋

即便存在這些限制,ECMAScript正則表達式仍然是很是強大的,可以幫咱們絕大多數模式匹配任務。

相關文章
相關標籤/搜索