[轉]精通JS正則表達式

時間 2019-11-08

原文原文鏈接

原文路徑：http://www.jb51.net/article/25313.htmjavascript

正則表達式能夠:
•測試字符串的某個模式。例如，能夠對一個輸入字符串進行測試，看在該字符串是否存在一個電話號碼模式或一個信用卡號碼模式。這稱爲數據有效性驗證
•替換文本。能夠在文檔中使用一個正則表達式來標識特定文字，而後能夠所有將其刪除，或者替換爲別的文字
•根據模式匹配從字符串中提取一個子字符串。能夠用來在文本或輸入字段中查找特定文字
正則表達式語法
一個正則表達式就是由普通字符（例如字符 a 到 z）以及特殊字符（稱爲元字符）組成的文字模式。該模式描述在查找文字主體時待匹配的一個或多個字符串。正則表達式做爲一個模板，將某個字符模式與所搜索的字符串進行匹配。
建立正則表達式 java

 var re = new RegExp();//RegExp是一個對象,和Aarray同樣 
//但這樣沒有任何效果,須要將正則表達式的內容做爲字符串傳遞進去 
re =new RegExp("a");//最簡單的正則表達式,將匹配字母a 
re=new RegExp("a","i");//第二個參數,表示匹配時不分大小寫

RegExp構造函數第一個參數爲正則表達式的文本內容,而第一個參數則爲可選項標誌.標誌能夠組合使用
•g （全文查找）
•i （忽略大小寫）
•m （多行查找）正則表達式

 var re = new RegExp("a","gi");//匹配全部的a或A

正則表達式還有另外一種正則表達式字面量的聲明方式數組

 var re = /a/gi;

正則表達式相關的方法和屬性
正則表達式對象的方法
•test,返回一個 Boolean 值，它指出在被查找的字符串中是否存在模式。若是存在則返回 true，不然就返回 false。
•exec,用正則表達式模式在字符串中運行查找，並返回包<script type="text/javascript" src="http://www.javaeye.com/javascripts/tinymce/themes/advanced/langs/zh.js"></script><script type="text/javascript" src="http://www.javaeye.com/javascripts/tinymce/plugins/javaeye/langs/zh.js"></script>含該查找結果的一個數組。
•compile,把正則表達式編譯爲內部格式，從而執行得更快。
正則表達式對象的屬性
•source,返回正則表達式模式的文本的複本。只讀。
•lastIndex,返回字符位置，它是被查找字符串中下一次成功匹配的開始位置。
•$1...$9,返回九個在模式匹配期間找到的、最近保存的部分。只讀。
•input ($_),返回執行規範表述查找的字符串。只讀。
•lastMatch ($&),返回任何正則表達式搜索過程當中的最後匹配的字符。只讀。
•lastParen ($+),若是有的話，返回任何正則表達式查找過程當中最後括的子匹配。只讀。
•leftContext ($`),返回被查找的字符串中從字符串開始位置到最後匹配以前的位置之間的字符。只讀。
•rightContext ($'),返回被搜索的字符串中從最後一個匹配位置開始到字符串結尾之間的字符。只讀。
String對象一些和正則表達式相關的方法
•match,找到一個或多個正則表達式的匹配。
•replace,替換與正則表達式匹配的子串。
•search,檢索與正則表達式相匹配的值。
•split,把字符串分割爲字符串數組。
測試正則表達式是如何工做的! 函數

 
//test方法,測試字符串,符合模式時返回true,不然返回false 
var re = /he/;//最簡單的正則表達式,將匹配he這個單詞 
var str = "he"; 
alert(re.test(str));//true 
str = "we"; 
alert(re.test(str));//false 
str = "HE"; 
alert(re.test(str));//false,大寫,若是要大小寫都匹配能夠指定i標誌(i是ignoreCase或case-insensitive的表示) 
re = /he/i; 
alert(re.test(str));//true 
str = "Certainly!He loves her!"; 
alert(re.test(str));//true,只要包含he(HE)就符合,若是要只是he或HE,不能有其它字符,則可以使用^和$ 
re = /^he/i;//脫字符(^)表明字符開始位置 
alert(re.test(str));//false,由於he不在str最開始 
str = "He is a good boy!"; 
alert(re.test(str));//true,He是字符開始位置,還須要使用$ 
re = /^he$/i;//$表示字符結束位置 
alert(re.test(str));//false 
str = "He"; 
alert(re.test(str));//true 
//固然,這樣不能發現正則表達式有多強大,由於咱們徹底能夠在上面的例子中使用==或indexOf 
re = /\s/;// \s匹配任何空白字符，包括空格、製表符、換頁符等等 
str= "user Name";//用戶名包含空格 
alert(re.test(str));//true 
str = "user Name";//用戶名包含製表符 
alert(re.test(str));//true 
re=/^[a-z]/i;//[]匹配指定範圍內的任意字符,這裏將匹配英文字母,不區分大小寫 
str="variableName";//變量名必須以字母開頭 
alert(re.test(str));//true 
str="123abc"; 
alert(re.test(str));//false

固然,僅僅知道了字符串是否匹配模式還不夠,咱們還須要知道哪些字符匹配了模式測試

var osVersion = "Ubuntu 8";//其中的8表示系統主版本號 
var re = /^[a-z]+\s+\d+$/i; //+號表示字符至少要出現1次,\s表示空白字符,\d表示一個數字 
alert(re.test(osVersion));//true,但咱們想知道主版本號 
//另外一個方法exec,返回一個數組,數組的第一個元素爲完整的匹配內容 
re=/^[a-z]+\s+\d+$/i; 
arr = re.exec(osVersion); 
alert(arr[0]);//將osVersion完整輸出,由於整個字符串恰好匹配re 
//我只須要取出數字 
re=/\d+/; 
var arr = re.exec(osVersion); 
alert(arr[0]);//8

更復雜的用法,使用子匹配編碼

//exec返回的數組第1到n元素中包含的是匹配中出現的任意一個子匹配 
re=/^[a-z]+\s+(\d+)$/i;//用()來建立子匹配 
arr =re.exec(osVersion); 
alert(arr[0]);//整個osVersion,也就是正則表達式的完整匹配 
alert(arr[1]);//8,第一個子匹配,事實也能夠這樣取出主版本號 
alert(arr.length);//2 
osVersion = "Ubuntu 8.10";//取出主版本號和次版本號 
re = /^[a-z]+\s+(\d+)\.(\d+)$/i;//.是正則表達式元字符之一,若要用它的字面意義須轉義 
arr = re.exec(osVersion); 
alert(arr[0]);//完整的osVersion 
alert(arr[1]);//8 
alert(arr[2]);//10

注意,當字符串不匹配re時,exec方法將返回null
String對象的一些和正則表達式有關的方法 spa

//replace方法,用於替換字符串 
var str ="some money"; 
alert(str.replace("some","much"));//much money 
//replace的第一個參數能夠爲正則表達式 
var re = /\s/;//空白字符 
alert(str.replace(re,"%"));//some%money 
//在不知道字符串中有多少空白字符時,正則表達式極爲方便 
str ="some some \tsome\t\f"; 
re = /\s+/; 
alert(str.replace(re,"#"));//但這樣只會將第一次出現的一堆空白字符替換掉 
//由於一個正則表達式只能進行一次匹配,\s+匹配了第一個空格後就退出了 
re = /\s+/g;//g,全局標誌,將使正則表達式匹配整個字符串 
alert(str.replace(re,"@"));//some@some@some@ 
var str = "ADF9DF9DF9", //那個文本文件中的字符串; 
re = /9/gi, //匹配9 
counter = 0; //計數器 var newstr = 
str = str.replace(re, function() { 
counter++; //每出現一次匹配,函數就被執行一次,函數的返回值用來替換原值 
return "#"; 
}); 
alert("替換次數: "+counter); 
//alert(str); 
//最後str 變成 ADF#DF#DF#" 
var str = "他今年22歲，她今年20歲，他的爸爸今年45歲，她的爸爸今年44歲，一共有4人" 
function test($1) { 
var gyear = (new Date()).getYear() - parseInt($1) + 1; 
return $1 + "(" + gyear + "年出生)"; 
} 
// var reg = new RegExp("(http://www.cnblogs.com/sgivee/admin/file://d/+)歲", "g"); 
var reg = /(\d+)歲/gi; 
var newstr = str.replace(reg, test); 
//alert(str); 
//alert(newstr); 
//另外一個與之類似的是split 
var str = "a-bd-c"; 
var arr = str.split("-");//返回["a","bd","c"] 
//若是str是用戶輸入的,他可能輸入a-bd-c也可能輸入a bd c或a_bd_c,但不會是abdc(這樣就說他輸錯了) 
str = "a_db-c";//用戶以他喜歡的方式加分隔符s 
re=/[^a-z]/i;//前面咱們說^表示字符開始,但在[]裏它表示一個負字符集 
//匹配任何不在指定範圍內的任意字符,這裏將匹配除字母處的全部字符 
arr = str.split(re);//仍返回["a","bd","c"]; 
//在字符串中查找時咱們經常使用indexOf,與之對應用於正則查找的方法是search 
str = "My age is 18.Golden age!";//年齡不是必定的,咱們用indexOf不能查找它的位置 
re = /\d+/; 
alert(str.search(re));//返回查找到的字符串開始下標10 
//注意,由於查找自己就是出現第一次就當即返回,因此無需在search時使用g標誌 
//下面的代碼雖然不出錯,但g標誌是多餘的 
re=/\d+/g; 
alert(str.search(re));//仍然是10

相似於exec方法,String對象的match方法也用於將字符串與正則表達式進行匹配並返回結果數組.net

var str = "My name is CJ.Hello everyone!"; 
var re = /[A-Z]/;//匹配全部大寫字母 
var arr = str.match(re);//返回數組 
alert(arr);//數組中只會包含一個M,由於咱們沒有使用全局匹配 
re = /[A-Z]/g; 
arr = str.match(re); 
alert(arr);//M,C,J,H 
//從字符串中抽取單詞 
re = /\b[a-z]*\b/gi;//\b表示單詞邊界 
str = "one two three four"; 
alert(str.match(re));//one,two,three,four

RegExp對象實例的一些屬性 code

var re = /[a-z]/i; 
alert(re.source);//將[a-z]字符串輸出 
//請注意,直接alert(re)會將正則表達式連同前向斜線與標誌輸出,這是re.toString方法定義的

var re = /[a-z]/i;
alert(re.source);
//將[a-z]字符串輸出
//請注意,直接alert(re)會將正則表達式連同前向斜線與標誌輸出,這是re.toString方法定義的
每一個RegExp對象的實例具備lastIndex屬性,它是被查找字符串中下一次成功匹配的開始位置,默認值是-1。 lastIndex 屬性被 RegExp 對象的 exec 和 test 方法修改.而且它是可寫的.

var re = /[A-Z]/; 
//exec方法執行後,修改了re的lastIndex屬性, 
var str = "Hello,World!!!"; 
var arr = re.exec(str); 
alert(re.lastIndex);//0,由於沒有設置全局標誌 
re = /[A-Z]/g; 
arr = re.exec(str); 
alert(re.lastIndex);//1 
arr = re.exec(str); 
alert(re.lastIndex);//7

當匹配失敗（後面沒有匹配），或lastIndex值大於字符串長度時，再執行exec等方法會將lastIndex設爲0(開始位置)

var re = /[A-Z]/; 
var str = "Hello,World!!!"; 
re.lastIndex = 120; 
var arr = re.exec(str); 
alert(re.lastIndex);//0

RegExp對象的靜態屬性

//input 最後用於匹配的字符串（傳遞給test,exec方法的字符串） 
var re = /[A-Z]/; 
var str = "Hello,World!!!"; 
var arr = re.exec(str); 
alert(RegExp.input);//Hello,World!!! 
re.exec("tempstr"); 
alert(RegExp.input);//仍然是Hello,World!!!,由於tempstr不匹配 
//lastMatch 最後匹配的字符 
re = /[a-z]/g; 
str = "hi"; 
re.test(str); 
alert(RegExp.lastMatch);//h 
re.test(str); 
alert(RegExp["$&"]);//i ,$&是lastMatch的短名字，但因爲它不是合法變量名，因此要。。 
//lastParen 最後匹配的分組 
re = /[a-z](\d+)/gi; 
str = "Class1 Class2 Class3"; 
re.test(str); 
alert(RegExp.lastParen);//1 
re.test(str); 
alert(RegExp["$+"]);//2 
//leftContext 返回被查找的字符串中從字符串開始位置到最後匹配以前的位置之間的字符 
//rigthContext 返回被搜索的字符串中從最後一個匹配位置開始到字符串結尾之間的字符 
re = /[A-Z]/g; 
str = "123ABC456"; 
re.test(str); 
alert(RegExp.leftContext);//123 
alert(RegExp.rightContext);//BC456 
re.test(str); 
alert(RegExp["$`"]);//123A 
alert(RegExp["$'"]);//C456

multiline屬性返回正則表達式是否使用多行模式,這個屬性不針對某個正則表達式實例，而是針對全部正則表達式，而且這個屬性可寫.(IE與Opera不支持這個屬性)

alert(RegExp.multiline); 
//由於IE，Opera不支持這個屬性，因此最好仍是單獨指定 
var re = /\w+/m; 
alert(re.multiline); 
alert(RegExp["$*"]);//RegExp對象的靜態屬性不會由於給RegExp某個對象實例指定了m標誌而改變 
RegExp.multiline = true;//這將打開全部正則表達式實例的多行匹配模式 
alert(RegExp.multiline);

使用元字符注意事項:元字符是正則表達式的一部分，當咱們要匹配正則表達式自己時，必須對這些元字符轉義.下面是正則表達式用到的全部元字符
( [ { \ ^ $ | ) ? * + .

var str = "?"; 
var re = /?/; 
alert(re.test(str));//出錯，由於？是元字符，必須轉義 
re = /\?/; 
alert(re.test(str));//true

使用RegExp構造函數與使用正則表達式字面量建立正則表達式注意點

var str = "\?"; 
alert(str);//只會輸出? 
var re = /\?/;//將匹配? 
alert(re.test(str));//true 
re = new RegExp("\?");//出錯,由於這至關於re = /\?/ 
re = new RegExp("\\?");//正確，將匹配？ 
alert(re.test(str));//true

既然雙重轉義這麼不友好，因此仍是用正則表達式字面量的聲明方式
如何在正則表達式中使用特殊字符？

//ASCII方式用十六進制數來表示特殊字符 
var re = /^\x43\x4A$/;//將匹配CJ 
alert(re.test("CJ"));//true 
//也可以使用八進制方式 
re = /^\103\112$/;//將匹配CJ 
alert(re.test("CJ"));//true 
//還可使用Unicode編碼 
re =/^\u0043\u004A$/;//使用 Unicode，必須使用u開頭，接着是字符編碼的四位16進製表現形式 
alert(re.test("CJ"));

另處，還有一些其它的預約義特殊字符，以下表所示:
字符描述
\n 換行符
\r 回車符
\t 製表符
\f 換頁符（Tab）
\cX 與X對應的控制字符
\b 退格符(BackSpace)
\v 垂直製表符
\0 空字符("")
字符類 ---〉簡單類，反向類，範圍類，組合類，預約義類

//簡單類 
var re = /[abc123]/;//將匹配abc123這6個字符中一個 
//負向類 
re = /[^abc]/;//將匹配除abc以外的一個字符 
//範圍類 
re = /[a-b]/;//將匹配小寫a-b 26個字母 
re = /[^0-9]/;//將匹配除0-9 10個字符之處的一個字符 
//組合類 
re = /[a-b0-9A-Z_]/;//將匹配字母，數字和下劃線

下面是正則表達式中的預約義類
代碼等同於匹配
. IE下[^\n]，其它[^\n\r] 匹配除換行符以外的任何一個字符
\d [0-9] 匹配數字
\D [^0-9] 匹配非數字字符
\s [ \n\r\t\f\x0B] 匹配一個空白字符
\S [^ \n\r\t\f\x0B] 匹配一個非空白字符
\w [a-zA-Z0-9_] 匹配字母數字和下劃線
\W [^a-zA-Z0-9_] 匹配除字母數字下劃線以外的字符
量詞(下表量詞單個出現時皆是貪婪量詞)
代碼描述
* 匹配前面的子表達式零次或屢次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等價於{0,}。
+ 匹配前面的子表達式一次或屢次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價於 {1,}。
? 匹配前面的子表達式零次或一次。例如，"do(es)?" 能夠匹配 "do" 或 "does" 中的"do" 。? 等價於 {0,1}。
{n} n 是一個非負整數。匹配肯定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，可是能匹配 "food" 中的兩個 o。
{n,} n 是一個非負整數。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的全部 o。'o{1,}' 等價於 'o+'。'o{0,}' 則等價於 'o*'。
{n,m} m 和 n 均爲非負整數，其中n <= m。最少匹配 n 次且最多匹配 m 次。劉， "o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價於 'o?'。請注意在逗號和兩個數之間不能有空格。
貪婪量詞與惰性量詞
•用貪婪量詞進行匹配時，它首先會將整會字符串當成一個匹配，若是匹配的話就退出，若是不匹配，就截去最後一個字符進行匹配，若是不匹配，繼續將最後一個字符截去進行匹配，直到有匹配爲止。直到如今咱們遇到的量詞都是貪婪量詞
•用惰性量詞進行匹配時，它首先將第一個字符當成一個匹配，若是成功則退出，若是失敗，則測試前兩個字符，依些增長，直到遇到合適的匹配爲止
惰性量詞僅僅在貪婪量詞後面加個"?"而已,如"a+"是貪婪匹配的,"a+?"則是惰性的

var str = "abc"; 
var re = /\w+/;//將匹配abc 
re = /\w+?/;//將匹配a

多行模式

var re = /[a-z]$/; 
var str = "ab\ncdef"; 
alert(str.replace(re,"#"));//ab\ncde# 
re =/[a-z]$/m; 
alert(str.replace(re,"#"));//a#\ncde#

分組與非捕獲性分組

re = /abc{2}/;//將匹配abcc 
re = /(abc){2}/;//將匹配abcabc 
//上面的分組都是捕獲性分組 
str = "abcabc ###"; 
arr = re.exec(str); 
alert(arr[1]);//abc 
//非捕獲性分組 (?:) 
re = /(?:abc){2}/; 
arr = re.exec(str); 
alert(arr[1]);//undefined

候選（也就是所說的「或」）

re = /^a|bc$/;//將匹配開始位置的a或結束位置的bc 
str ="add"; 
alert(re.test(str));//true 
re = /^(a|bc)$/;//將匹配a或bc 
str ="bc"; 
alert(re.test(str));//true

當包含分組的正則表達式進行過test,match,search這些方法以後，每一個分組都被放在一個特殊的地方以備未來使用，這些存儲是分組中的特殊值，咱們稱之爲反向引用 Js代碼

var re = /(A?(B?(C?)))/; 
/*上面的正則表達式將依次產生三個分組 
(A?(B?(C?))) 最外面的 
(B?(C?)) 
(C?)*/ 
str = "ABC"; 
re.test(str);//反向引用被存儲在RegExp對象的靜態屬性$1—$9中 
alert(RegExp.$1+"\n"+RegExp.$2+"\n"+RegExp.$3); 
//反向引用也能夠在正則表達式中使用\1 ,\2...這類的形式使用 
re = /\d+(\D)\d+\1\d+/; 
str = "2008-1-1"; 
alert(re.test(str));//true 
str = "2008-4_3"; 
alert(re.test(str));//false

使用反向引用能夠要求字符串中某幾個位置上的字符必須相同.另外，在replace這類方法中可用特殊字符序列來表示反向引用
Js代碼

re = /(\d)\s(\d)/; 
str = "1234 5678"; 
alert(str.replace(re,"$2 $1"));//在這個裏面$1表示第一個分組1234,$2則表示5678

其它——〉正向前瞻,用來捕獲出如今特定字符以前的字符,只有當字符後面跟着某個特定字符纔去捕獲它。與正向前瞻對應的有負向前瞻，它用匹配只有當字符後面不跟着某個特定字符時纔去匹配它。在執行前瞻和負向前瞻之類的運算時，正則表達式引擎會留意字符串後面的部分，然而卻不移動index
Js代碼

//正向前瞻 
re = /([a-z]+(?=\d))/i; 
//咱們要匹配後面跟一個數字的單詞，而後將單詞返回，而不要返回數字 
str = "abc every1 abc"; 
alert(re.test(str));//true 
alert(RegExp.$1);//every 
alert(re.lastIndex);//使用前瞻的好處是,前瞻的內容(?=\d)並不會當成一次匹配，下次匹配仍從它開始 
//負向前瞻(?!) 
re = /([a-z](?!\d))/;i 
//將匹配後面不包含數字的字母,而且不會返回(?!\d)中的內容 
str = "abc1 one"; 
alert(re.test(str)); 
alert(RegExp.$1);//one

構建一個驗證電子郵箱地址有效性的正則表達式。電子郵箱地址有效性要求(咱們姑且這樣定義)：用戶名只能包含字母數字以及下劃線，最少一位，最多25位，用戶名後面緊跟@，後面是域名，域名名稱要求只能包含字母數字和減號（-），而且不能以減號開頭或結尾，而後後面是域名後綴（能夠有多個），域名後綴必須是點號連上2-4位英文字母
Js代碼

var re = /^\w{1,15}(?:@(?!-))(?:(?:[a-z0-9-]*)(?:[a-z0-9](?!-))(?:\.(?!-)))+[a-z]{2,4}$/;

屢次匹配

var testStr = "now test001 test002";   
var re = /test(\d+)/ig;    
var r = "";   
while(r = re.exec(testStr)) {   
    alert(r[0] + "  " + r[1]);   
}