JavaScript正則表達式精簡

時間 2019-11-24

原文原文鏈接

ECMAScript 3 開始支持正則表達式，其語法和 Perl 語法很相似，一個完整的正則表達式結構以下：html

var expression = / pattern / flags ;

其中，模式（pattern）部分能夠是任何簡單或複雜的正則表達式，能夠包含字符類、限定符、分組、向前查找以及反向引用。正則表達式

每一個正則表達式均可帶有一或多個標誌（flags），用以標明正則表達式的行爲，正則表達式支持下列 3 個標誌：express

g：表示全局（global）模式，即模式將被應用於全部字符串，而非在發現第一個匹配項時當即中止；數組

i ：表示不區分大小寫（case-insensitive）模式，即在肯定匹配項時忽略模式與字符串的大小寫；瀏覽器

m：表示多行（multiline）模式，即在到達一行文本末尾時還會繼續查找下一行中是否存在與模式匹配的項。函數

若是多個標誌同時使用時，則寫成：gmi 。this

正則表達式的建立有兩種方式： new RegExp(expression) 和直接字面量。編碼

// 使用直接字面量建立
var exp1 = /(^\s+)|(\s+$)/g;
// 使用RegExp對象建立
var exp2 = new RegExp('(^\\s+)|(\\s+$)', 'g');

exp1 和 exp2 是兩個徹底等價的正則表達式，須要注意的是，傳遞給 RegExp 構造函數的兩個參數都是字符串，不能把正則表達式字面量傳遞給 RegExp 構造函數。url

與其餘語言中的正則表達式相似，模式中使用的全部元字符都必須轉義。正則表達式中的元字符包括：spa

( [ { \ ^ $ | ) ? * + .] }

這些元字符在正則表達式中都有一或多種特殊用途，所以若是想要匹配字符串中包含的這些字符，就必須對它們進行轉義。

// 匹配 .docx 
var exp = /\.docx/gi ;

因爲 RegExp 構造函數的模式參數是字符串，因此在某些狀況下要對字符進行雙重轉義。全部元字符都必須雙重轉義，那些已經轉義過的字符也是如此。

// 對 \. 再次轉義
var exp = new RegExp('\\.docx', 'gi');

//匹配 \n 
var exp1 = /\\n/g; //對\n中的\轉義
var exp2 = new RegExp('\\\\n', 'g'); // 對 \\n 再次轉義

() [] {} 的區別

() 的做用是提取匹配的字符串。表達式中有幾個()就會獲得幾個相應的匹配字符串。好比 (\s+) 表示連續空格的字符串。

[] 是定義匹配的字符範圍。好比 [a-zA-Z0-9] 表示字符文本要匹配英文字符和數字。

{} 通常用來表示匹配的長度，好比 \d{3} 表示匹配三個數字，\d{1,3} 表示匹配1~3個數字，\d{3,} 表示匹配3個以上數字。

^ 與 $

^ 匹配一個字符串的開頭，好比 (^a) 就是匹配以字母a開頭的字符串

$ 匹配一個字符串的結尾,好比 (b$) 就是匹配以字母b結尾的字符串

^ 還有另個一個做用就是取反，好比[^xyz] 表示匹配的字符串不包含xyz

注意問題：

若是 ^ 出如今[ ] 中通常表示取反，而出如今其餘地方則是匹配字符串的開頭。

^ 和 $ 配合能夠有效匹配完整字符串:

/d+/.test('4xpt');  // true - 部分匹配成功
/^\d+$/.test('4xpt');  // false - 完整匹配失敗

\d \s \w .

\d 匹配一個非負整數，等價於 [0-9]

\s 匹配一個空白字符

\w 匹配一個英文字母或數字，等價於[0-9a-zA-Z]

. 匹配除換行符之外的任意字符，等價於[^\n]

* + ?

* 表示匹配前面元素0次或屢次，好比 (\s*) 就是匹配0個或多個空格

+ 表示匹配前面元素1次或屢次，好比 (\d+) 就是匹配由至少1個整數組成的字符串

? 表示匹配前面元素0次或1次，至關於{0,1} ，好比(\w?) 就是匹配最多由1個字母或數字組成的字符串

$1 與 \1

$1-$9 存放着正則表達式中最近的9個正則表達式的提取的結果，這些結果按照子匹配的出現順序依次排列。基本語法是：RegExp.$n ，這些屬性是靜態的，除了replace中的第二個參數能夠省略 RegExp 以外，其餘地方使用都要加上 RegExp 。

//使用RegExp訪問
/(\d+)-(\d+)-(\d+)/.test('2016-03-26') 
 
RegExp.$1  // 2016
RegExp.$2  // 03
RegExp.$3  // 26

//在replace中使用
'2016-03-26'.replace(/(\d+)-(\d+)-(\d+)/, '$1年$2月$3日')  
// 2016年03月26日

\1 表示後向引用，是指在正則表達式中，從左往右數，第1個()中的內容，以此類推，\2表示第2個()，\0表示整個表達式。

//匹配日期格式，表達式中的\1表明重複(\-|\/|.)
var rgx = /\d{4}(\-|\/|.)\d{1,2}\1\d{1,2}/

rgx.test('2016-03-26') // true  

rgx.test('2016-03.26') // false

二者的區別是：\n 只能用在表達式中，而 $n 只能用在表達式以外的地方。

test 與 match

前面的大都是JS正則表達式的語法，而test則是用來檢測字符串是否匹配某一個正則表達式，若是匹配就會返回true,反之則返回false

/\d+/.test('123') ; // true

/\d+/.test('abc') ; // false

match是獲取正則匹配到的結果，以數組的形式返回

'186a619b28'.match(/\d+/g); // ['186', '619', '28']

replace

replace 自己是JavaScript字符串對象的一個方法，它容許接收兩個參數：

replace([RegExp|String], [String|Function])

參數1：能夠是一個普通的字符串或是一個正則表達式

參數2：能夠是一個普通的字符串或是一個回調函數

若是第1個參數是 RegExp，JS會先提取RegExp匹配出的結果，而後用第2個參數逐一替換匹配出的結果

若是第2個參數是回調函數，每匹配到一個結果就回調一次，每次回調都會傳遞如下參數：

result: 本次匹配到的結果

$1,...$9: 正則表達式中有幾個()，就會傳遞幾個參數，$1~$9分別表明本次匹配中每一個()提取的結果，最多9個

offset: 記錄本次匹配的開始位置

source: 接受匹配的原始字符串

經典案例

【1】實現字符串的 trim 函數，去除字符串兩邊的空格。

String.prototype.trim = function () {

    // 方式一：將匹配到的每個結果都用''替換
    return this.replace(/(^\s+)|(\s+$)/g, function(){
        return '';
    });

    // 方式二：和方式一的原理相同
    return this.replace(/(^\s+)|(\s+$)/g, '');
};

^\s+ 表示以空格開頭的連續空白字符，\s+$ 表示以空格結尾的連續空白字符，加上() 就是將匹配到的結果提取出來，因爲是 | 的關係，所以這個表達式最多會match到兩個結果集，而後執行兩次替換：

String.prototype.trim = function () {
    /**
     * @param rs：匹配結果
     * @param $1:第1個()提取結果
     * @param $2:第2個()提取結果
     * @param offset:匹配開始位置
     * @param source：原始字符串
     */
    this.replace(/(^\s+)|(\s+$)/g, function(rs, $1, $2, offset, source){
        // arguments中的每一個元素對應一個參數
        console.log(arguments);
    });
};

' abcd '.trim();

輸出結果：

[' ', ' ', undefined, 0, ' abcd '] // 第1次匹配結果
[' ', undefined, ' ', 5, ' abcd '] // 第2次匹配結果

【2】提取瀏覽器 url 中的參數名和參數值，生成一個key/value 的對象。

function getUrlParamObj(){
    var obj = {};
    //獲取url的參數部分
    var params = window.location.search.substr(1);
    //[^&=]+ 表示不含&或=的連續字符，加上()就是提取對應字符串
    params.replace(/([^&=]+)=([^&=]*)/gi, function(rs, $1, $2){
        obj[$1] =  decodeURIComponent($2);
    });

    return obj;
}

/([^&=]+)=([^&=]*)/gi 每次匹配到的都是一個完整key/value，形如 xxxx=xxx, 每當匹配到一個這樣的結果時就執行回調，並傳遞匹配到的 key 和 value，對應到$1和$2 。

【3】擴展 typeof，包含引用類型的具體類型。

function getDataType(obj){
    let rst = Object.prototype.toString.call(obj);
    rst = rst.replace(/\[object\s(\w+)\]/,'$1'); // [object Xxx]
    return rst.toLowerCase()
}

getDataType(1); // number
getDataType('a'); // string
getDataType(null); // null
getDataType([]); // array

$1 是正則表達式中第一個() 中匹配的內容。

注意問題：

replace 的第二個參數只能是字符串或函數，這裏的 $1 須要放在引號中。

【4】在字符串指定位置插入新字符串。

String.prototype.insetAt = function(str, offset){

    offset = offset + 1; 
    //使用RegExp()構造函數建立正則表達式
    var regx = new RegExp("(^.{"+offset+"})");

    return this.replace(regx, '$1' + str);
};

'abcd'.insetAt('xyz',2); // 在c字符後插入xyz
> 'abcxyzd'

當 offset=2 時，正則表達式爲：(^.{3}) .表示除\n以外的任意字符，{3} 表示匹配前三個連續字符，加()就會將匹配到的結果提取出來，而後經過replace將匹配到的結果替換爲新的字符串，形如：結果=結果+str

【5】將手機號 12988886666 轉化成 129****6666 。

function telFormat(tel){

    tel = String(tel);

    // 方式一
    return tel.replace(/(\d{3})(\d{4})(\d{4})/, function (rs, $1, $2, $3) {
       return $1 + '****' + $3
    });

    // 方式二
    return tel.replace(/(\d{3})(\d{4})(\d{4})/, '$1****$3');
}

(\d{3}\d{4}\d{4}) 能夠匹配完整的手機號，並分別提取前 3 位、4-7 位和 8-11位，"$1****$3" 是將第 2 個匹配結果用****代替並組成新的字符串，而後替換完整的手機號。

【6】實現HTML編碼，將< / > " & ` 等字符進行轉義，避免 XSS 攻擊。

function htmlEncode(str) {
    //匹配< / > " & `
    return str.replace(/[<>"&\/`]/g, function(rs) {
        switch (rs) {
            case "<":
                return "<";
            case ">":
                return ">";
            case "&":
                return "&";
            case "\"":
                return """;
            case "/":  
                return "/"
            case "`":
                return "'"
        }
    });
}

原創發佈 @一像素 2016.02