高程5.4 RegExp類型

時間 2019-11-15

標籤高程 5.4 regexp 類型简体版

原文原文鏈接

ECMAScript經過RegExp類型來支持正則表達式.正則表達式

使用下面相似Perl的語法,就能夠建立一個正則表達式.express

var expression=/pattern/flags;

其中的模式(pattern)部分能夠是任何簡單的或複雜的正則表達式,能夠包含字符類,限定符,分組,向前查找以及反向引用.數組

每一個正則表達式均可帶有一或多個標誌(flags),用以標明正則表達式的行爲.函數

正則表達式的匹配模式支持下面3個標誌.測試

g:表示全局(global)模式,即模式將被應用於全部字符串,而非在發現第一個匹配項時當即中止;this

i:表示不區分大小寫(case-insensitive)模式,即在肯定匹配項時忽略模式與字符串的大小寫;atom

m:表示多行(multiline)模式,即在到達一行文本末尾時還會繼續查找下一行中是否存在與模式匹配的項.spa

所以,一個正則表達式就是一個模式與上述3個標誌的組合體.不一樣組合產生不一樣的結果.設計

//匹配字符串的全部"at"的實例
    var pattern1=/at/g;

    //匹配第一個"bat"或"cat",不區分大小寫
    var pattern2=/[bc]at/i;

    //匹配全部以"at"結尾的3個字符的組合,不區分大小寫
    var pattern3=/.at/gi;

與其餘語言中的正則表達式相似,模式中使用的全部元字符都必須轉義.code

正則表達式的元字符包括:

( [ { \ ^ $ | ) ? * + . ] }

這些元字符在正則表達式中都有一種或多種多途,所以若是想要匹配字符串的包含的這些字符,就必須對它們進行轉義.

//匹配第一個"bat"或"cat",不區分大小寫
    var pattern1=/[bc]at/i;

    //匹配第一個"[bc]at/i",不區分大小寫
    var pattern2=/\[bc\]at/i;

    //匹配全部以"at"結尾的3個字符的組合,不區分大小寫
    var pattern3=/.at/gi;

    //匹配全部".at",不區分大小寫
    var pattern4=/\.at/gi;

在上面例子中,pattern1匹配第一個"bat」或"cat",不區分大小寫.而想要直接匹配"[bc]at」,就要對兩個方括號進行轉義.對於pattern3,句號表示位於"at」以前的任意一個能夠構成匹配項的字符.若是想匹配」.at」,就必須對鐘點自己進行轉義.

前面舉的這些例子都是以字面量形式來定義的正則表達式.另外一種建立正則表達式的方式是使用RegExg構造函數,它接收兩個參數:一個要匹配的字符串模式,另外一個是可選的標誌字符串.

可使用字面量定義的任何表達式,均可以使用構造函數來定義,以下例子:

//匹配第一個"bat"或"cat",不區分大小寫
    var pattern1=/[bc]at/i;

    //與pattern1相同,只不過是使用構造函數建立的
    var pattern2=new RegExp("[bc]at",i);

這裏的patttern1和pattern2是兩個徹底等價的正則表達式.

要注意的是,傳遞給RegExp構造函數的兩個參數都是字符串(不能把正則表達式字面量傳遞給RegExp構造函數).

因爲RegExp構造函數的模式參數是字符串,所以某些狀況下要對字符進行雙重轉義.

全部元字符都必須雙重轉義,那些已經轉義過的字符也是如此,例如\n(字符\在字符串中一般被轉義爲\\,而在正則表達式字符串就會變成\\\\).

下表給出一些模式,左邊爲這些模式的字面量表示,右邊爲使用RegExp構造函數定義相同模式時使用的字符串.

字面量模式	等價的字符串
/\[bc\]at/	「/\\[bc\\]at/」
/\.at/	「/\\.at/」
/name\/age/	「/name\\/age/」
/\d.\d{1,2}/	「/\\d.\\d{1,2}/」
/\w\\hello\\123/	「/\\w\\\\hello\\\\123/」

使用正則表達式字面量和使用RegExp構造函數建立的正則表達式不同.在ECMASscript 3中,正則表達式字面量始終會共享同一個RegExp實例,而使用構造函數建立的每個新RegExp實例都是一個新實例.看下面例子

var re=null;
        i;
        
    for(var i=0;i<10;i++){
        re=/cat/g;
        re.test("catastrophe");
    }

    for(var i=0;i<10;i++){
        re=new RegExp("cat","g");
        re.test("catastrophe");
    }

在第一個循環中,即便是循環體中指定的,但實際上只爲/cat/建立了一個RegExp實例. 因爲實例屬性不會重置,因此在循環中再次調用test()方法會失敗.這是由於第一次調用test()找到了」cat」,但第二次調用是從索引爲3的字符(上一次匹配的末尾)開始的,因此就找不到它了.因爲會測試到字符串末尾,因此下一次再調用test()就又從開頭開始了.

第二個循環使用RegExp構造函數在每次循環中建立正則表達式.由於每次迭代都會建立一個新的RegExp實例,因此每次調用test()都會返回true.

ECMAScipt 5明確規定,使用正則表達式字面量必須你直接調用RegExp構造函數同樣,每次都建立新的RegExp實例.

IE+,FF4+和Chrome都據此作出了修改.

5.4.1 RegExp實例屬性

RegExp的每一個實例都具備下列屬性,經過這些屬性能夠取得有關模式的各類信息.

global:布爾值,表示是否設置了g標誌.

ignoreCase:布爾值,表示是否設置了i標誌.

lastIndex:整數,表示開始搜索下一個匹配項的字符位置,從0算起.

multiline:布爾值,表示是否設置了m標誌.

source:正則表達式的字符串表示,按照字面量形式而非傳入構造函數中的字符串模式返回.

經過這些屬性能夠獲知一個正則表達式的各方面的信息,但卻沒有多大用處,由於這些信息都包含在模式聲明中.例如

var pattern1=/\[bc\]at/i;

    console.log(pattern1.global);//false
    console.log(pattern1.ignoreCase);//true
    console.log(pattern1.multiline);//false
    console.log(pattern1.lastIndex);//0
    console.log(pattern1.source);// \[bc\]at

    var pattern2=new RegExp("\\[bc\\]at","i");
    console.log(pattern2.global);//false
    console.log(pattern2.ignoreCase);//true
    console.log(pattern2.multiline);//false
    console.log(pattern2.lastIndex);//0
    console.log(pattern2.source);// \[bc\]at

咱們注意到,儘管第一個模式使用是字面量,第二個模式使用了RegExp構造函數,但它們的source屬性是相同的.可見,source屬性保存的是規範形式的字符串,即字面量形式所用的字符串.

5.4.2 RegExp實例方法

RegExp對象的主要方法是exec(),該方法是專門爲捕獲組而設計的.

exec()接受一個參數,即要應用模式的字符串,而後返回包含第一個匹配項信息的數組;或者在沒有匹配項的狀況下返回null.

返回的數組雖然是Array的實例,但包含兩個額外的屬性:index和input.

其中index表示匹配項在字符串的位置,而input表示應用正則表達式的字符串.

在數組中,第一項是與整個模式匹配的字符串,其餘項是與模式中的捕獲組匹配的字符串(若是模式中沒有捕獲組,則該數組只包含一項).

對於exec()方法而言,即便在模式中設置了全局標誌(g),它每次也只會返回一個匹配項.

在不設置全局標誌的狀況下,在同一個字符串上屢次調用exec()將始終返回第一個匹配項的信息.

而在設置全局標誌的狀況下,每次調用exec()則都會在字符串中繼續查找新匹配項,以下面例子所示:

var text="cat,bat,sat,fat";
    var pattern1=/.at/;

    var matches=pattern1.exec(text);
    console.log(matches.index);//0
    console.log(matches[0]);//cat
    console.log(pattern1.lastIndex);//0

    matches=pattern1.exec(text);
    console.log(matches.index);//0
    console.log(matches[0]);//cat
    console.log(pattern1.lastIndex);//0

    var pattern2=/.at/g;

    var matches=pattern2.exec(text);
    console.log(matches.index);//0
    console.log(matches[0]);//cat
    console.log(pattern2.lastIndex);//3

    matches=pattern2.exec(text);
    console.log(matches.index);//4
    console.log(matches[0]);//bat
    console.log(pattern2.lastIndex);//7

在這個例子中,第一個模式pattern1不是全局模式,所以每次調用exec()返回的都是第一個匹配項("cat").而第二個模式pattern2是全局模式,所以每次調用exec()都會返回字符串中的下一個匹配項,直到搜索到字符串末尾爲止.

此外,還要注意模式的lastIndex屬性的變化狀況. 在全局匹配模式下,lastIndex的值在每次調用exec()後都會增長,而在非全局模式下則始終保持不變.

注意:IE的JavaScript實如今lastIndex屬性上存在誤差,即便在非全局模式下,lastIndex屬性每次也會變化.

正則表達式的第二個方法是test(),它接受一個字符串參數.在模式與該參數匹配的狀況下返回true;不然,返回false.在只想知道目標字符串與某個模式是否匹配,但不須要知道其文本內容的狀況下,使用這個方法很是方便.

所以,test()方法常常被用在if語句中,以下面例子所示:

var text="000-00-0000";
    var pattern=/\d{3}-\d{2}-\d{4}/;

    if(pattern.test(text)){
        console.log("The pattern was matched.");
    }

在這個例子中,用正則表達式來測試一個數字序列.若是輸入文本與模式匹配,則顯示一條消息.

這種用法常常出如今驗證用戶輸入的狀況下,由於咱們只想知道輸入是否是有效,至於它爲何無效就可有可無了.

RexExp實例繼承的toLocaleString()和toString()方法都會返回正則表達式的字面量,與建立正則表達式的方式無關.

例如:

var pattern=new RegExp("\\[bc\\]at","gi");
    console.log(pattern.toString());// /\[bc\]at/gi
    console.log(pattern.toLocaleString());// /\[bc\]at/gi

即便上例中的模式是經過調用RegExp構造函數建立的,但toLocaleString()和toString()方法仍然會像它是以字面量形式建立的同樣顯示其字符串表示.

注意:正則表達式的valueOf()方法返回正則表達式自己.

5.4.3 RegExp構造函數屬性

RegExp構造函數包含一些屬性(這些屬性在其餘語言中被當作是靜態屬性).這些屬性適用於做用域中的全部正則表達式,而且基於所執行的最後一次正則表達式操做而變化.

關於這些屬性的另外一個獨特之處,就是能夠經過兩種方法來訪問它們.

換句話說,這些屬性分別有一個長屬性名和一個短屬性名(Opera是例外,它不支持短屬性名)

下表列出了RegExp構造函數的屬性.

長屬性名	短屬性名	說明
input	$_	最近一次要匹配的字符串.Opera未實現此屬性
lastMatch	$&	最近一次的匹配.Opera未實現此屬性
lastParen	$+	最近一次匹配的捕獲組.Opera未實現此屬性
leftContext	$`	input字符串中lastMatch以前的文本
multiline	$*	布爾值,表示是否全部表達式都使用多行模式.IE和Opera未實現此屬性
rightContext	$'	Input字符串中lastMatch以後的文本

使用這些屬性能夠從exec()或test()執行的操做中提取出更具體的信息.

以下面例子:

var text="this has been a short summer";
    var pattern=/(.)hort/g;

    //注意:Opera不支持input,lastMatch,lastParen和multiline屬性
    //Internet Rxplorer不支持multiline屬性
    if(pattern.test(text)){
        console.log(RegExp.input);//this has been a short summer
        console.log(RegExp.leftContext);//this has been a 
        console.log(RegExp.rightContext);//summer
        console.log(RegExp.lastMatch);//s
        console.log(RegExp.lastParen);//false
        console.log(RegExp.multiline);
    }

以上代碼建立了一個模式,匹配任何一個字符後跟hort,並且把第一個字符放在了一個捕獲組中.

RegExp構造函數的各個屬性返回了下列值:

input屬性返回了原始字符串;

leftContext屬性返回了單詞short以前的字符串,而rightContext屬性則返回了short以後的字符串

lastMatch屬性返回最近一次與整個正則表達式匹配的字符串,即short;

lastParen屬性返回最近一次匹配的捕獲組,即例子中的s.

如前所述,例子使用的長屬性名均可以用相應的短屬性名來代替.只不過,因爲這些短屬性名大都不是有效的ECMAScript標識符,所以必須經過方括號語法來訪問它們,以下所示.

var text="this has been a short summer";
    var pattern=/(.)hort/g;

    //注意:Opera不支持input,lastMatch,lastParen和multiline屬性
    //Internet Rxplorer不支持multiline屬性
    
    if(pattern.test(text)){
        console.log(RegExp.$_);//this has been a short summer
        console.log(RegExp["$`"]);//this has been a 
        console.log(RegExp["$'"]);//summer
        console.log(RegExp["$&"]);//short
        console.log(RegExp["$+"]);//s
        console.log(RegExp["$*"]);//false

除了上面介紹的幾個屬性以外,還有多達9個用於存儲捕獲組的構造函數屬性.訪問這些屬性的語法是RegExp.$1,RegExp.$2……RegExp.$9,分別用於存儲第一,第二...第九個匹配的捕獲組.在調用exec()和test()方法時,這些屬性會被自動填充.

而後就能夠像下面來使用它們:

var test="this has a short summer";
    var pattern=/(..)or(.)/g;
    if(pattern.test(text)){
        console.log(RegExp.$1);//sh
        console.log(RegExp.$2);//t
    }

這裏建立了一個包含兩個捕獲組的模式,並用該模式測試了一個字符串.即便即便test()方法只返回一個布爾值,但RegExp構造的函數的屬性$1和$2也會被匹配相應捕獲組的字符串自填充.

5.4.4 模式的侷限性

儘管ECMAScript中的正則表達式功能仍是比較完備的,但仍然缺乏某些語言(特別是Perl)所支持的高級正則表達式特性.

下面列出了ECMAScript正則表達式不支持的特性:

匹配字符串開始和結尾的\A和\Z錨;(但支持以插入符號^和美圓符號$來匹配字符串的開始和結尾)

向後查找(lookbehind);(但徹底支持向前查找lookhead)

並集和交集類;

原子組(atomic grouping);

Unicode支持(單個字符除外,如\uFFFF);

命名的捕獲組;(但支持編號的捕獲組)

s(single,單行)和x(free-spacing,無間隔)匹配模式;

條件匹配;