《JavaScript高級程序設計》讀書筆記 ---RegExp 類型

時間 2019-11-10

標籤 javascript 高級程序設計讀書筆記 regexp 類型欄目 JavaScript 简体版

原文原文鏈接

ECMAScript 經過RegExp 類型來支持正則表達式。使用下面相似Perl 的語法，就能夠建立一個正則表達式。
var expression = / pattern / flags ;正則表達式

其中的模式（pattern）部分能夠是任何簡單或複雜的正則表達式，能夠包含字符類、限定符、分組、向前查找以及反向引用。每一個正則表達式均可帶有一或多個標誌（flags），用以標明正則表達式的行爲。
正則表達式的匹配模式支持下列3 個標誌。
 g：表示全局（global）模式，即模式將被應用於全部字符串，而非在發現第一個匹配項時當即中止；
 i：表示不區分大小寫（case-insensitive）模式，即在肯定匹配項時忽略模式與字符串的大小寫；
 m：表示多行（multiline）模式，即在到達一行文本末尾時還會繼續查找下一行中是否存在與模式匹配的項。
所以，一個正則表達式就是一個模式與上述3 個標誌的組合體。不一樣組合產生不一樣結果，以下面的例子所示。
/*
* 匹配字符串中全部"at"的實例
*/
var pattern1 = /at/g;
/*
* 匹配第一個"bat"或"cat"，不區分大小寫
*/
var pattern2 = /[bc]at/i;
/*
* 匹配全部以"at"結尾的3 個字符的組合，不區分大小寫
*/
var pattern3 = /.at/gi;express

與其餘語言中的正則表達式相似，模式中使用的全部元字符都必須轉義。正則表達式中的元字符包括：
( [ { \ ^ $ | ) ? * + .]}數組

這些元字符在正則表達式中都有一或多種特殊用途，所以若是想要匹配字符串中包含的這些字符，就必須對它們進行轉義。下面給出幾個例子。
/*
* 匹配第一個"bat"或"cat"，不區分大小寫
*/函數

var pattern1 = /[bc]at/i;
/*
* 匹配第一個" [bc]at"，不區分大小寫
*/
var pattern2 = /\[bc\]at/i;
/*
* 匹配全部以"at"結尾的3 個字符的組合，不區分大小寫
*/
var pattern3 = /.at/gi;
/*
* 匹配全部".at"，不區分大小寫
*/
var pattern4 = /\.at/gi;
在上面的例子中，pattern1 匹配第一個"bat"或"cat"，不區分大小寫。而要想直接匹配"[bc]at"的話，就須要像定義pattern2 同樣，對其中的兩個方括號進行轉義。對於pattern3 來講，句點表示位於"at"以前的任意一個能夠構成匹配項的字符。但若是想匹配".at"，則必須對句點自己進行轉義，如pattern4 所示。
前面舉的這些例子都是以字面量形式來定義的正則表達式。另外一種建立正則表達式的方式是使用RegExp 構造函數，它接收兩個參數：一個是要匹配的字符串模式，另外一個是可選的標誌字符串。可使用字面量定義的任何表達式，均可以使用構造函數來定義，以下面的例子所示。測試

/*
* 匹配第一個"bat"或"cat"，不區分大小寫
*/
var pattern1 = /[bc]at/i;
/*
* 與pattern1 相同，只不過是使用構造函數建立的
*/
var pattern2 = new RegExp("[bc]at", "i");
在此，pattern1 和pattern2 是兩個徹底等價的正則表達式。要注意的是，傳遞給RegExp 構造函數的兩個參數都是字符串（不能把正則表達式字面量傳遞給RegExp 構造函數）。因爲RegExp 構造函數的模式參數是字符串，因此在某些狀況下要對字符進行雙重轉義。全部元字符都必須雙重轉義，那些已經轉義過的字符也是如此，例如\n（字符\在字符串中一般被轉義爲\\，而在正則表達式字符串中就會變成\\\\）。下表給出了一些模式，左邊是這些模式的字面量形式，右邊是使用RegExp 構造函數定義相同模式時使用的字符串。this

使用正則表達式字面量和使用RegExp 構造函數建立的正則表達式不同。在ECMAScript 3 中，正則表達式字面量始終會共享同一個RegExp 實例，而使用構造函數建立的每個新RegExp 實例都是一個新實例。來看下面的例子。atom

var re = null,
i;
for (i=0; i < 10; i++){
　　re = /cat/g;
　　re.test("catastrophe");
}
for (i=0; i < 10; i++){
　　re = new RegExp("cat", "g");
　　re.test("catastrophe");
}
在第一個循環中，即便是循環體中指定的，但實際上只爲/cat/建立了一個RegExp 實例。因爲實例屬性（下一節介紹實例屬性）不會重置，因此在循環中再次調用test()方法會失敗。這是由於第一次調用test()找到了"cat"，但第二次調用是從索引爲3 的字符（上一次匹配的末尾）開始的，因此就找不到它了。因爲會測試到字符串末尾，因此下一次再調用test()就又從開頭開始了。
第二個循環使用RegExp 構造函數在每次循環中建立正則表達式。由於每次迭代都會建立一個新的RegExp 實例，因此每次調用test()都會返回true。
ECMAScript 5 明確規定，使用正則表達式字面量必須像直接調用RegExp 構造函數同樣，每次都建立新的RegExp 實例。IE9+、Firefox 4+和Chrome 都據此作出了修改。spa

RegExp實例屬性
RegExp 的每一個實例都具備下列屬性，經過這些屬性能夠取得有關模式的各類信息。
 global：布爾值，表示是否設置了g 標誌。
 ignoreCase：布爾值，表示是否設置了i 標誌。
 lastIndex：整數，表示開始搜索下一個匹配項的字符位置，從0 算起。
 multiline：布爾值，表示是否設置了m 標誌。
 source：正則表達式的字符串表示，按照字面量形式而非傳入構造函數中的字符串模式返回。
經過這些屬性能夠獲知一個正則表達式的各方面信息，但卻沒有多大用處，由於這些信息全都包含在模式聲明中。例如：
var pattern1 = /\[bc\]at/i;
alert(pattern1.global); //false
alert(pattern1.ignoreCase); //true
alert(pattern1.multiline); //false
alert(pattern1.lastIndex); //0
alert(pattern1.source); //"\[bc\]at"
var pattern2 = new RegExp("\\[bc\\]at", "i");
alert(pattern2.global); //false
alert(pattern2.ignoreCase); //true
alert(pattern2.multiline); //false
alert(pattern2.lastIndex); //0
alert(pattern2.source); //"\[bc\]at"設計

咱們注意到，儘管第一個模式使用的是字面量，第二個模式使用了RegExp 構造函數，但它們的source 屬性是相同的。可見，source 屬性保存的是規範形式的字符串，即字面量形式所用的字符串。3d

RegExp實例方法

RegExp 對象的主要方法是exec()，該方法是專門爲捕獲組而設計的。exec()接受一個參數，即要應用模式的字符串，而後返回包含第一個匹配項信息的數組；或者在沒有匹配項的狀況下返回null。
返回的數組雖然是Array 的實例，但包含兩個額外的屬性：index 和input。其中，index 表示匹配項在字符串中的位置，而input 表示應用正則表達式的字符串。在數組中，第一項是與整個模式匹配的字符串，其餘項是與模式中的捕獲組匹配的字符串（若是模式中沒有捕獲組，則該數組只包含一項）。請看下面的例子。
var text = "mom and dad and baby";
var pattern = /mom( and dad( and baby)?)?/gi;
var matches = pattern.exec(text);
alert(matches.index); // 0
alert(matches.input); // "mom and dad and baby"
alert(matches[0]); // "mom and dad and baby"
alert(matches[1]); // " and dad and baby"
aler t(matches[2]); // " and baby"

這個例子中的模式包含兩個捕獲組。最內部的捕獲組匹配"and baby"，而包含它的捕獲組匹配"anddad"或者"and dad and baby"。當把字符串傳入exec()方法中以後，發現了一個匹配項。由於整個字符串自己與模式匹配，因此返回的數組matchs 的index 屬性值爲0。數組中的第一項是匹配的整個字符串，第二項包含與第一個捕獲組匹配的內容，第三項包含與第二個捕獲組匹配的內容。
對於exec()方法而言，即便在模式中設置了全局標誌（g），它每次也只會返回一個匹配項。在不設置全局標誌的狀況下，在同一個字符串上屢次調用exec()將始終返回第一個匹配項的信息。而在設置全局標誌的狀況下，每次調用exec()則都會在字符串中繼續查找新匹配項，以下面的例子所示。
var text = "cat, bat, sat, fat";
var pattern1 = /.at/;
var matches = pattern1.exec(text);
alert(matches.index); //0
alert(matches[0]); //cat
alert(pattern1.lastIndex); //0
matches = pattern1.exec(text);
alert(matches.index); //0
alert(matches[0]); //cat
alert(pattern1.lastIndex); //0
var pattern2 = /.at/g;
var matches = pattern2.exec(text);
alert(matches.index); //0
alert(matches[0]); //cat
alert(pattern2.lastIndex); //3

matches = pattern2.exec(text);
alert(matches.index); //5
alert(matches[0]); //bat
alert(pattern2.lastIndex); //8

這個例子中的第一個模式pattern1 不是全局模式，所以每次調用exec()返回的都是第一個匹配項（"cat"）。而第二個模式pattern2 是全局模式，所以每次調用exec()都會返回字符串中的下一個匹配項，直至搜索到字符串末尾爲止。此外，還應該注意模式的lastIndex 屬性的變化狀況。在全局匹配模式下，lastIndex 的值在每次調用exec()後都會增長，而在非全局模式下則始終保持不變。

注：IE 的JavaScript 實如今lastIndex 屬性上存在誤差，即便在非全局模式下，lastIndex 屬性每次也會變化。

正則表達式的第二個方法是test()，它接受一個字符串參數。在模式與該參數匹配的狀況下返回true；不然，返回false。在只想知道目標字符串與某個模式是否匹配，但不須要知道其文本內容的狀況下，使用這個方法很是方便。所以，test()方法常常被用在if 語句中，以下面的例子所示。
var text = "000-00-0000";
var pattern = /\d{3}-\d{2}-\d{4}/;
if (pattern.test(text)){
　　alert("The pattern was matched.");
}

在這個例子中，咱們使用正則表達式來測試了一個數字序列。若是輸入的文本與模式匹配，則顯示一條消息。這種用法常常出如今驗證用戶輸入的狀況下，由於咱們只想知道輸入是否是有效，至於它爲何無效就可有可無了。
RegExp 實例繼承的toLocaleString()和toString()方法都會返回正則表達式的字面量，與建立正則表達式的方式無關。例如：
var pattern = new RegExp("\\[bc\\]at", "gi");
alert(pattern.toString()); 　　// /\[bc\]at/gi
alert(pattern.toLocaleString()); 　　// /\[bc\]at/gi

即便上例中的模式是經過調用RegExp 構造函數建立的，但toLocaleString() 和toString() 方法仍然會像它是以字面量形式建立的同樣顯示其字符串表示。

注：正則表達式的valueOf()方法返回正則表達式自己。

RegExp構造函數屬性
RegExp 構造函數包含一些屬性（這些屬性在其餘語言中被當作是靜態屬性）。這些屬性適用於做用域中的全部正則表達式，而且基於所執行的最近一次正則表達式操做而變化。關於這些屬性的另外一個獨特之處，就是能夠經過兩種方式訪問它們。換句話說，這些屬性分別有一個長屬性名和一個短屬性名（Opera 是例外，它不支持短屬性名）。下表列出了RegExp 構造函數的屬性。

使用這些屬性能夠從exec()或test()執行的操做中提取出更具體的信息。請看下面的例子。
var text = "this has been a short summer";
var pattern = /(.)hort/g;
/*
* 注意：Opera 不支持input、lastMatch、lastParen 和multiline 屬性
* Internet Explorer 不支持multiline 屬性
*/
if (pattern.test(text)){
　　alert(RegExp.input); 　　// this has been a short summer
　　alert(RegExp.leftContext); 　　// this has been a
　　alert(RegExp.rightContext);　　 // summer
　　alert(RegExp.lastMatch); 　　// short
　　alert(RegExp.lastParen); 　　// s
　　alert(RegExp.multiline); 　　// false
}

以上代碼建立了一個模式，匹配任何一個字符後跟hort，並且把第一個字符放在了一個捕獲組中。
RegExp 構造函數的各個屬性返回了下列值：
 input 屬性返回了原始字符串；
 leftContext 屬性返回了單詞short 以前的字符串，而rightContext 屬性則返回了short
以後的字符串；
 lastMatch 屬性返回最近一次與整個正則表達式匹配的字符串，即short；
 lastParen 屬性返回最近一次匹配的捕獲組，即例子中的s。
如前所述，例子使用的長屬性名均可以用相應的短屬性名來代替。只不過，因爲這些短屬性名大都不是有效的ECMAScript 標識符，所以必須經過方括號語法來訪問它們，以下所示。
var text = "this has been a short summer";
var pattern = /(.)hort/g;
/*
* 注意：Opera 不支持input、lastMatch、lastParen 和multiline 屬性
* Internet Explorer 不支持multiline 屬性
*/

if (pattern.test(text)){
　　alert(RegExp.$_); // this has been a short summer
　　alert(RegExp["$`"]); // this has been a
　　alert(RegExp["$'"]); // summer
　　alert(RegExp["$&"]); // short
　　alert(RegExp["$+"]); // s
　　alert(RegExp["$*"]); // false
}

除了上面介紹的幾個屬性以外，還有多達9 個用於存儲捕獲組的構造函數屬性。訪問這些屬性的語法是RegExp.$一、RegExp.$2…RegExp.$9，分別用於存儲第1、第二……第九個匹配的捕獲組。在調用exec()或test()方法時，這些屬性會被自動填充。而後，咱們就能夠像下面這樣來使用它們。
var text = "this has been a short summer";
var pattern = /(..)or(.)/g;
if (pattern.test(text)){
　　alert(RegExp.$1); //sh
　　alert(RegExp.$2); //t
}

這裏建立了一個包含兩個捕獲組的模式，並用該模式測試了一個字符串。即便test()方法只返回一個布爾值，但RegExp 構造函數的屬性$1 和$2 也會被匹配相應捕獲組的字符串自動填充。

模式的侷限性儘管ECMAScript 中的正則表達式功能仍是比較完備的，但仍然缺乏某些語言（特別是Perl）所支持的高級正則表達式特性。下面列出了ECMAScript 正則表達式不支持的特性（要了解更多相關信息，請訪問www.regular-expressions.info）。 匹配字符串開始和結尾的\A 和\Z 錨① 向後查找（lookbehind）② 並集和交集類 原子組（atomic grouping） Unicode 支持（單個字符除外，如\uFFFF） 命名的捕獲組③ s（single，單行）和x（free-spacing，無間隔）匹配模式 條件匹配 正則表達式註釋即便存在這些限制，ECMAScript 正則表達式仍然是很是強大的，可以幫咱們完成絕大多數模式匹配任務。——————————① 但支持以插入符號（^）和美圓符號（$）來匹配字符串的開始和結尾。② 但徹底支持向前查找（lookahead）。③ 但支持編號的捕獲組。