淺析正則表達式模式匹配的String方法

在JavaScript代碼中使用正則表達式進行模式匹配常常會用到String對象和RegExp對象的一些方法,例如replace、match、search等方法,如下是對一些方法使用的總結。javascript

String對象中支持正則表達式有4種方法,分別是:search、replace、match、splitjava

str.search(regexp)

定義:search()方法將在字符串str中檢索與表達式regexp相匹配的字串,而且返回第一個匹配字串的第一個字符的位置。若是沒有找到任何匹配的字串,則返回-1。正則表達式

例如:數組

var str = "Javascript";
    str.search(/script/); // 返回 script 中s的位置爲 4
    str.search(/j/i); // 設置正則表達是標識i:忽略大小寫,則匹配到J,返回位置0

可是,search()方法不支持全局搜索,由於會忽略正則表達式參數的標識g,而且也忽略了regexp的lastIndex屬性,老是從字符串的開始位置進行檢索,因此它會老是返回str的第一個匹配的位置。
例如:函數

var str = "javascript is cool";
    str.search(/s/g); // 返回 javascript 中的s位置4,不會繼續檢索s

str.replace(regexp, replacement)

定義:replace()方法是執行查找並替換的操做。它將正則表達式regexp匹配到的字串,而後用replacement的字符串替換掉字串,若是有全局標識g,則替換所有匹配的字串,不然只替換第一個匹配字串。code

replace方法應該是比較經常使用的一個方法,在字符串替換操做中很是有用的。例如:regexp

一、簡單替換

var str = "javascript";
   str.replace(/javascript/,'JavaScript'); // 將字符串javascript替換爲JavaScript

二、全局替換

// 使用全局表示g進行全局替換
    var str = "javascript";
    str.replace(/a/g, 'b'); // 將全部的字母a替換爲字母b,返回 jbvbscript

三、使用replacement中的特殊字符替換,在replacement中$字符有特殊的意義,具體說明以下表格:

字符 替換文本
$一、$二、...、$99 與regexp中的第1個到99 個子表達式相匹配的文本
$& 與regexp相匹配的字串
$` 位於匹配子串左側的文本
$' 位於匹配子串右側的文本
$$ 直接量符號

來看下例子:對象

//一、用子表達式替換:$一、$2等
    var str = "javascript";
    str.replace(/(java)(script)/,'$2$1'); 
   // 表達式中()就是一個子表達式,$1對應是第一個表達式的內容,即java,$2爲script,因此替換結果爲:scriptjava 


    //二、$& 爲正值表達式匹配的字串
    var str = "javascript";
    str.replace(/java/,'$&-'); 
    // 正則表達式經過直接量java來匹配,匹配結果爲java,則 $&的值爲java,而後用字符串$&-來替換匹配的字串,結果爲java-script

    
    // 三、 $`  $'  $$
    var str = "javascript";
    str.replace(/ava/,"$`"); // $`爲匹配子串ava的左側文本,則爲j,則替換後ava的結果爲:jjscript
    str.replace(/ava/,"$'"); // $'爲匹配子串ava的右側文本,則爲script,則替換ava的結果爲:jscriptscript
    str.replace(/ava/,"$$"); // $$爲直接量符號,即插入一個$符號,替換結果爲:j$script

四、使用replacement做爲函數替換

replace的參數replacement能夠是函數而不是字符串,每一個匹配都會調用該函數,它返回的字符串將做爲替換的文本使用。該函數的第一個參數是整個匹配模式的字符串,接下來的參數是與模式中的子表達式匹配的字符串,能夠有0個或多個參數。接下來的參數是一個整數,聲明瞭匹配在str中出現的位置。最後的參數是str自身。
來看個例子:blog

// match 爲匹配整個字符串,即:'abc12345#$*%'
// p1 爲第一個子表達式,([^\d]*),匹配0個或多個非數字的字符,即:abc
// p2 爲第二個子表達式,(\d*),匹配0個或多個的數字,即:12345
// p3 爲第三個子表達式,([^\w]*),匹配0個或匹配任何非單詞字符。等價於 '[^A-Za-z0-9_]',即 #$*%
// offset 爲模式匹配出現的位置,從第一個字符已經匹配成功,則位置爲0
// string爲字符串自己,即 abc12345#$*%

function replacer(match, p1, p2, p3, offset, string) {
  return [p1, p2, p3].join(' - ');
}

var newString = 'abc12345#$*%'.replace(/([^\d]*)(\d*)([^\w]*)/, replacer); 
// 替換結果爲:abc - 12345 - #$*%

str.match(regexp)

定義:match()方法是最經常使用的String正則表達式方法。它惟一的參數就是一個正則表達式或者經過RegExp()構造函數來建立正則表達式,返回值是包含了匹配結果的數組。ip

match()方法中的regexp正則表達式通常又分爲兩種狀況:有設置全局標誌g和沒有設置全局標誌g

一、有設置全局標誌

若是設置了全局標誌g,則返回的數組包含的就是出如今字符串的全部匹配結果,例如:

// 全局匹配
    var str = "1 plus 2 equals 3";
    str.match(/\d/g);  // 匹配字符串中出現的全部數字,並返回一個數組: [1,2,3]

二、沒有設置全局標誌

若是沒有設置全局標誌,則就不是全局性的檢索,只是檢索第一個匹配。這種狀況下,match()方法匹配的結果也是返回一個數組,數組的第一個元素就是匹配的字符串,而餘下的元素則是正則表達式中用括號括起來的子表達式。來看個例子:

// 非全局匹配
     var str = "visit my blog at http://www.example.com";
     str.match(/(\w+):\/\/([\w.]+)/); // 返回結果:["http://www.example.com", "http", "www.example.com"]
     // 正則表達式匹配的結果爲:http://www.example.com
     // 第一個子表達式 (\w+)匹配結果:http
     // 第二個子表達式 ([\w.])匹配結果: www.example.com

str.split(delimiter, limit)

定義:split()方法能夠把調用它的字符串分解爲一個字串數組,使用的分隔符是它的參數。
參數:
delimiter:字符串或者正則表達式,從該參數指定的地方分割字符串。
limit:指定返回數組的最大長度,若是沒有設置該參數,則整個字符串都會被分割。
例如:

//一、 只傳一個參數,默認分割整個字符串
var str ="a,b,c,d,e";
str.split(','); // 返回分割的字符串數組:["a", "b", "c", "d", "e"]

//二、傳入兩個參數
var str ="a,b,c,d,e";
str.split(',',3); //指定限定長度,則返回對應的數組:["a", "b", "c"]
    
//三、使用正則表達式匹配,不包含分割字符串
var str = "aa44bb55cc66dd";
str.split(/\d+/); //經過匹配數字進行分割字符串,但不包含分割的字符串,則返回的結果爲:["aa","bb","cc","dd"];

//四、使用正則表達式匹配,包含分割字符串
var str = "aa44bb55cc66dd";
str.split(/(\d+)/); //經過匹配數字進行分割字符串,且分割的字符串是包含在子表達式中,則返回的結果爲:["aa", "44", "bb", "55", "cc", "66", "dd"]

以上。

相關文章
相關標籤/搜索