本文不討論正則表達式入門,即如何使用正則匹配。討論的是兩種建立正則表達式的優劣和一些細節,最後給出一些經常使用正則匹配表達式。正則表達式
Javascript中的正則表達式也是對象,咱們能夠使用兩種方法建立正則表達式:數組
先說結果,使用正則表達字面量的效率更高。瀏覽器
下面的示例代碼演示了兩種可用於建立正則表達式以匹配反斜槓的方法:函數
1 //正則表達字面量 2 var re = /\\/gm; 3
4 //正則構造函數 5 var reg = new RegExp("\\\\","gm"); 6
7 var foo = "abc\\123"; //foo的值爲"abc\123" 8
9 console.log(re.test(foo)); //true 10 console.log(reg.test(foo)); //true
如上面的代碼中能夠看到,使用正則表達式字面量表示法時式子顯得更加簡短,並且不用按照相似類(class-like)的構造函數方式思考。測試
其次,在當使用構造函數的時候,在這裏要使用四個反斜槓才能匹配單個反斜槓。這使得正則表達式模式顯得更長,更加難以閱讀和修改。正確來講,當使用RegExp()構造函數的時候,不只須要轉義引號(即\"表示"),而且一般還須要雙反斜槓(即\\表示一個\)。編碼
使用new RegExp()的緣由之一在於,某些場景中沒法事先肯定模式,而只能在運行時以字符串方式建立。spa
RegExp直接量和對象的建立 firefox
值得注意的是,譬如程序運行時遇到直接量(初始化字面量表達式)諸如{} & []的時候都會建立新的對象。好比在循環體內寫var arr = [],則每次遍歷都會建立一個新的數組。
code
正則表達字面量則與此不一樣,ECMAScript3規定,字面量表達式在解析時只有一次建立了一個對象,同一段代碼所表示的正則表達式字面量的每次運算都返回同一個對象。ECMAScript5規範則作了相反的規定,同一段代碼所表示的正則表達式字面量每次運算都返回新對象。考慮下面的例子,在舊一些版本的瀏覽器與現代瀏覽器的運行結果不一致:對象
1 function getREG(){ 2 var re = /[a-z]/; 3 re.foo = "bar"; 4 return re; 5 } 6
7 var reg = getREG(), 8 re2 = getREG; 9
10 console.log(reg === re2); //在較低版本的瀏覽器(firefox3.6)中返回true,現代瀏覽器均返回false; 11
12 reg.foo="baz"; 13 console.log() //舊版本返回"baz",現代瀏覽器均返回"bar"
最後須要說明的是,調用RegExp()時不使用new的行爲與使用new的行爲是相同的。
經常使用正則表達式
1 經常使用的數字正則(嚴格匹配)
1 正則 含義 2 ^[1-9]\d*$ 匹配正整數 3 ^-[1-9]\d*$ 匹配負整數 4 ^-?[1-9]\d*$ 匹配整數 5 ^[1-9]\d*|0$ 匹配非負整數(正整數 + 0) 6 ^-[1-9]\d*|0$ 匹配非正整數(負整數 + 0) 7 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 匹配正浮點數 8 ^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 匹配負浮點數 9 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ 匹配浮點數 10 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ 匹配非負浮點數(正浮點數 + 0) 11 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ 匹配非正浮點數(負浮點數 + 0)
2經常使用字符串正則
1 正則 含義 補充 2 ^[A-Za-z]+$ 匹配由26個英文字母組成的字符串 或 /^[a-z]+$/i 3 ^[A-Z]+$ 匹配由26個英文字母的大寫組成的字符串 4 ^[a-z]+$ 匹配由26個英文字母的小寫組成的字符串 5 ^[A-Za-z0-9]+$ 匹配由數字和26個英文字母組成的字符串 注意\w包含下劃線_ 6 ^\w+$ 匹配由數字、26個英文字母或者下劃線組成的字符串 7 經常使用數字正則和經常使用字符串正則,是最基本的正則應用,讀者能夠做爲入門的練習,試試能不能快速的讀懂其中的含義。
3匹配中文字符
1 廣泛使用的正則是[\u4e00-\u9fa5],但這個範圍並不完整。例如: 2 /[\u4e00-\u9fa5]/.test( '⻏' ) // 測試部首⻏,返回false
3 根據Unicode 5.0版編碼,要準確的判斷一箇中文字符要包括: 4 範圍 含義 範圍 含義 5 2E80-2EFF CJK 部首補充 2F00-2FDF 康熙字典部首 6 3000-303F CJK 符號和標點 31C0-31EF CJK 筆畫 7 3200-32FF 封閉式 CJK 文字和月份 3300-33FF CJK 兼容 8 3400-4DBF CJK 統一表意符號擴展 A 4DC0-4DFF 易經六十四卦符號 9 4E00-9FBF CJK 統一表意符號 F900-FAFF CJK 兼容象形文字 10 FE30-FE4F CJK 兼容形式 FF00-FFEF 全角ASCII、全角標點 11 所以,正確的匹配中文字符正則表達式爲: 12 var rcjk = /[\u2E80-\u2EFF\u2F00-\u2FDF\u3000-\u303F\u31C0-\u31EF\u3200-\u32FF\u3300-\u33FF\u3400-\u4DBF\u4DC0-\u4DFF\u4E00-\u9FBF\uF900-\uFAFF\uFE30-\uFE4F\uFF00-\uFFEF]+/g; 13 若是不但願匹配標點、符號,在正則中去掉對應的範圍便可: 14 3000-303F CJK 符號和標點 FF00-FFEF 全角ASCII、全角標點
4匹配雙字節字符(包括漢字在內)
1 [^\x00-\xff],能夠用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1),代碼示例以下: 2 console.info( "abc".replace( /[^\x00-\xff]/g,"aa" ).length ) // 3 3 console.info( "漢字".replace( /[^\x00-\xff]/g,"aa" ).length ) // 4 4 console.info( "abc漢字".replace( /[^\x00-\xff]/g,"aa").length ) // 7
其餘經常使用
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ (可能會有新增頭部)
5 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 國內電話號碼(0511-440522二、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份證號(15位、18位數字):^\d{15}|\d{18}$
8 短身份證號碼(數字、字母x結尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 賬號是否合法(字母開頭,容許5-16字節,容許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線):^[a-zA-Z]\w{5,17}$
11 強密碼(必須包含大小寫字母和數字的組合,不能使用特殊字符,長度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$
14 一個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15 中文字符的正則表達式:[\u4e00-\u9fa5]
16 雙字節字符:[^\x00-\xff] (包括漢字在內,能夠用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1))
17 空白行的正則表達式:\n\s*\r ^[\s]*\n (能夠用來刪除空白行)
18 HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (網上流傳的版本太糟糕,上面這個也僅僅能部分,對於複雜的嵌套標記依舊無能爲力)
19 首尾空白字符的正則表達式:^\s*|\s*$或(^\s*)|(\s*$) (能夠用來刪除行首行尾的空白字符(包括空格、製表符、換頁符等等),很是有用的表達式)
20 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)
21 中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼爲6位數字)
22 JS註釋:((\/\*[\s\S]*?\*\/)|(\/\/.*$))
(持續更新...)