正則表達式入門

初識

正則表達式是主要用於進行文本匹配的表達式,就是判斷一段爲文字是否與設定的規則相同。html

元字符

正則中的字符,有些表明字符自己,例如abc,其中的字符都表明其自己。在字符串中不能夠隨便書寫空格或者換行符,由於也會被看成匹配內容的一部分。git

預設字符組合

  • \d:表明任意一個數字字符,包括0~9的任意數字。d爲單詞digit數字的首字母
  • \D:表明任意一個非數字字符,除了0~9之外的數字,與\d互爲補集。
  • \s:表明任意一個空白字符,其中包括了空格、換行符(\r或者\n)、製表符、換頁符和垂直製表符。s爲單詞space空白格的首字母。(該字符通常不會包括全角空格或者其餘異性空格,個別編程中有例外)。
  • \S:表明任意一個非空白字符,與\s互爲補集。
  • \w:表明單詞內的任意一個可用字符,通常狀況下包括數組、大小寫字母和下劃線。w爲單詞word單詞的首字母。
  • \W:通常狀況下表明數字、大小字母和下劃線之外的任意一個字符,與\w互爲補集。

以上六個元字符,大寫與小寫互爲補集,爲了方便記憶,能夠記住首字母所表明的含義,而後小寫爲包含,大寫爲不包含。而且大小寫一塊兒使用能夠匹配全部字符。正則表達式

自定義字符組

除了預設的字符組合,咱們還可使用方括號[]來自定義字符組合。 例如:[xyz]就是一個字符組合,能夠匹配xyz中的任意一個。 針對字母和數字,還能夠上使用連字符-來進行簡寫,表示必定的範圍。 例如:[a-z]表示小寫的a到z的全部字母。須要注意的是,這裏是區分大小寫的。 [0-9]表示數字的0到9的所又數字。編程

須要注意的是,[a-zA-Z]不能直接簡寫成爲[a-Z]數組

當連字符必須夾在字符中間才表示連字符,若連字符在首位或者最後一位,則表明-自己。爲了讓變分辨正則公式,若須要匹配-,通常建議將其放在首位。瀏覽器

由於這裏的連寫是和字符編碼順序掛鉤的。在字符編碼中,小寫字母是在大寫字母以後的,該寫法沒法知足從小到大的要求,會致使引擎報錯。安全

這時候就會有小夥伴可能以爲反着過來,用[A-z]就能夠了。我只能說那你可真是個小機靈鬼,然而實際上這種寫法雖然不會報錯,可是會包含一些咱們不須要的字符,由於字符編碼中,大寫字母與小寫字母中間還會包含着一些其餘字符,包括[]_等。bash

在沒有使用量詞的狀況下,一個方括號內的字符組合,只能匹配從左到右第一個符合規則的字符。 另外須要注意的是,在使用數字簡寫的時候,對應範圍的開始到截止,只以簡寫符兩邊的單個字符做爲標準。例如,[0-34-67-9]等價於[0-9]google

排除型字符組

排除性字符組也能夠簡單理解爲取反或者補集。在方括號內使用脫字符^來表示,通常放在首位,表明須要排除方括號內包含的字符。編碼

例如[^\s]等價於\S

排除性字符組的含義,正確的理解爲「匹配除了所列字符之外的任意一個字符」,而不是「不匹配所列出的字符」。

前者的理解,是將列出的字符組,做爲一個範圍來看待。後者則會將列出的字符組做爲一個總體來看待。

在部分語言中,可使用[^]來代替.,排除字符組中沒有任何字符,也就意味着不須要排除字符,因此就能匹配全部。可是前提必須是對應的語言支持該種寫法。

^必須在首位才表明排除性字符組,在其餘位置時,只表示^符號自己。

轉義序列

常見的轉義序列有\r(回車符)、\n(換行符)、\t(製表符)、\f(換頁符)、\v(垂直製表符)、\0(NULL字符)。

轉義序列,是經過在字符前加上\來進行轉義的。除了上方提到的,將原先無特殊含義的字符經過轉義表明某些字符之外。還能夠將原先有特殊含義的字符轉義成其自己。 例如.表明所有字符,可是咱們使用轉義字符,將其寫成\.以後,他就表明了.符號自己。

正則表達式中的\轉義是一種安全轉義。當使用\轉義時,沒法進行正常的轉義時,它就達標後續字符其自己。這種狀況通常是在某些特定語言內纔會出現。

字符編碼轉義

正則的字符轉義時,支持使用ASCII 碼。 \nnn能夠表示8進制ASCII碼對應的字符。這裏的n表明0.7範圍內的一個數字。 \xnn能夠表示16進制ASCII碼對應的字符。這裏的n表明的是0-9a-f範圍內的一個數字。x則不變。例如\x41表明A。

同時正則也支持Unicode字符,格式是\unnnnn與上文16進制下ASCII碼的n的取值範圍相同。u不變。

量詞

在正則匹配中,咱們能夠經過使用量詞,來設定正則表達式匹配的次數。

  • ?表明匹配0次或者1次。
  • *表明匹配0次或者次。
  • +表明匹配1次以上,至少匹配1次。
  • {n,m}則是限定了一個範圍次數值,最少匹配n次,最多匹配m次。
  • {n}表明剛好匹配n次。
  • {n}表明最少匹配n次,最多不限。

其中?等價於{0,1}*等價於{0,}+等價於{1,}

量詞所控制的,是對應字符可出現的次數,例如ab*c字符組,能夠匹配abbbbbbbbc

匹配位置

以前所提到的元字符都是用來匹配字符的,除此以外還有些元字符能夠用來匹配位置。

  • ^能夠用來匹配開始位置,通常是指整個字符串的首位。這個字符與排除型字符組是一致的,二者的區分方法是,排除型字符須要在方括號內使用才生效。
  • $表明結束的位置,通常狀況下表明結束的位置。
  • \b表明單詞邊界,用來匹配單詞的開始和結尾,例如\bname\b能夠匹配namename=1a\rname中的name,可是沒法匹配mynamemy_namename1中的name。**須要注意的是,\b在方括號內使用時,在部分語言中表明退格符,而不是單詞邊界。
  • \B表明非單詞邊界,按照咱們上文中說的,大小寫表明着取反,因此\B\b也是互爲補集的。

**必須特別注意,匹配位置與匹配字符不一樣,匹配位置在匹配時不會佔用原字符的任何字符。**因此實際在使用匹配位置時,這類元字符的後一位字符纔是首位字符。

分支

字符組在匹配的時候,會出現分支狀況。例如咱們在設置了一個字符組[abc],這個字符組不只能匹配abc,還有abacbcabc等狀況。而在使用了量詞以後,分支狀況則會更加的複雜。

因此當咱們在使用字符組的時候,須要注意分支狀況,在不須要其餘多餘分支狀況時,咱們可使用管道操做符 |來隔開,|在咱們常見的狀況中通常表明,因此表示「匹配符號左邊或者匹配符號右邊都是成功的」。

|能夠屢次使用,建立多個分支狀況。須要注意的是,咱們在使用的時候,須要按照可包含性進行一個排序來寫。例如咱們須要匹配abcabc234這兩種狀況的時候,最好寫成(abc234|abc),這是由於若是咱們使用(abc|abc234)來匹配1abc234的話,可能在匹配到abc的時候就中止了,而實際上他是能匹配到abc234的。

分組

上面使用了方括號[]能夠自定義字符組,那麼更常見的圓括號確定也有其特別的用法。圓括號能夠將字符組進行分組,而後配合量詞和分支進行使用,使咱們的正則表達式更加清晰明瞭。

例如咱們在使用分支時,例如ab|cd*的狀況,該字符組中的*只會做用於右分支的d字符上,例如匹配cd或者cdddddddd。而當咱們使用了分組,能夠將其做用於整個字符組,例如(ab|cd)*。或者只做用於右分支,例如ab|(cd)*

當咱們使用量詞加分組時,量詞所做用的目標就並非前一位的字符,而是整個分組內的字符。

當咱們須要匹配()圓括號自己時,記得要使用轉義符號哦。

捕獲分組

分組不只用於區分和配合量詞、分支使用,自身也具備捕獲特性。

每個分組都會依照出現的順序被標註數字序號。例如(1(2(3))(4)),用這個字符組來匹配1234的字符。

嘗試用控制檯打印一下。

var a = /(1(2(3))(4))/;
console.log("1234".match(a));
//"1234"
//"1234"
//"23"
//"3"
//"4"
複製代碼

不難發現,主要是以從左到右首次出現的括號所在的分組來排序的。

這裏特別在最外圈用圓括號所有包起來,能夠發現,全值"1234"被打印了兩遍。這是由於這個字符組總體自己就是一個最大的分組。

捕獲分組主要用於替換字符串。

非捕獲分組

咱們有時在使用分組的時候只是爲了配合量詞或者分支來使用,並不但願其佔用分組序號,這時候就能夠考慮使用非捕獲分組。非捕獲分組,就是在左括號後面使用一個冒號,寫成(?:......)的形式。

使用非捕獲分組,通常是由於但願結果只包含咱們所關心的部分,不但願其餘無關的分組干擾這個結果。

例如:

var a = /1(?:2|3)/;
console.log("12".match(a));
//"12"
console.log("13".match(a));
//"13"
console.log("2".match(a));
//null
複製代碼

這裏能夠發現,咱們沒法只匹配非捕獲分組內的內容,這是由於這裏並無被捕獲,不佔用分組的序號。

命名分組

前面咱們提到,捕獲分組能夠給分組分別標記序號。而命名分組,則是能夠對分組進行命名。因此你能夠把命名分組看作特殊的捕獲分組來使用。可能會有人疑惑,實際上,命名分組你能夠把它看作一個變量來看,名字是變量名,對應的正則則是變量的值,這樣咱們在使用的時候就會更加方便簡潔。

在JavaScript中,咱們使用(?<groupname>)的語法來進行命名分組。在replace()方法來替換字符串時,咱們可使用$<groupname>的方法來引用對應的命名分組

var reg = /<(?<tag>[a-z][a-z\d]*)\b[^>]*>([\d\D]*?)<\/\k<tag>>/ig;

console.log('<p class="p1">文本</p>'.replace(reg, '<$<tag>>$2</$<tag>>'));
//<p>文本<p>
複製代碼

這裏在寫正則的時候,重複的部分能夠直接使用對應的命名。

命名分組2018年正式成爲ECMAScript的標準特性。

不過須要注意的時,即使命名分組已經成爲了`ECMAScript的正式標準,咱們在生產環境中也不該該隨便使用,由於咱們沒法保證用戶使用的瀏覽器標準。

反向引用

有時候咱們須要實現配對匹配,例如咱們在匹配帶有引號的內容是時,須要確保先後引號一致,這時候就須要用到反向引用。

反向引用使用\符號加上捕獲分組的序號或者命名分組的名字,來表明匹配過程當中捕獲的第一個分組的值。

var a = 'a123b';
var b = 'a123a';
var reg = /([\w])([\d]*)\1/g;
a.replace(reg,'x'); // 'a123b'
a.replace(reg,'x'); // 'x'
複製代碼

須要注意的是,反向引用不能在字符組裏使用,例如[\1]並不會表明第一個分組的值,而是單純的表明字符1

環視

環視用於對位置進行匹配,在特定位置上,若是以前或者以後的字符/字符序列符合預設的條件,則匹配成功。

順序環視

順序環視也稱正向環視。使用(?=)來表示,括號內的其他部分必須與當前位置以後的部分相符合。

var a = 'a-';
var b = 'a ';
var reg = /\w+(?=\s)/;
console.log(a.match(reg));  //null
console.log(b.match(reg)); //"a"
複製代碼

上述代碼中,第二個輸出結果爲"a "。這裏須要注意,環視匹配的是位置,並不包含在字符中,因此輸出的是"a"而不是"a "(後者最後有個空格)。

環視的語法使用括號,所以可使用管道符號|來書寫分支,同時也能夠配合量詞來使用。而且不會產生捕獲分組。全部的環視語法都有這種特性

順序否認環視

順序否認環視,也成爲正向否認環視。使用(?!)來表示,括號內的其他部分須要與當前位置以後的部分不相符合

var a = 'a-';
var b = 'a ';
var reg = /\w+(?!\s)/;
console.log(a.match(reg)); // "a"
console.log(b.match(reg)); // null
複製代碼

其實從名字咱們就能知道,順序否認環視與順序環視是取反的。、

逆序環視

逆序環視也稱反向環視。使用(?<=)來表示,括號內的其他部分必須與當前位置以前的部分相符合。

這裏特別須要注意順序環視和逆序環視分別對應的位置,不然會影響使用。

逆序否認環視

逆序否認環視,也成爲反向否認環視。使用(?<!)來表示,括號內的其他部分須要與當前位置以前的部分不相符合

逆序與順序惟一的差異就是語法和對應位置不同,這裏很少贅述,小夥伴本身嘗試便可。

貪婪匹配與惰性匹配

量詞在NFA正則表達式引擎中,通常會嘗試進行儘量多的匹配,這就是所謂的貪婪匹配。

var reg = /\d+(?=[57])/g;
var str = "124567; console.log(str.match(reg)); // 輸出 ["12456"] 複製代碼

上述代碼能夠發現,輸出結果最後選擇了較長的"123456"而不是"1234"

咱們須要注意的是,貪婪匹配有時候會致使匹配到咱們意想不到的結果。

例如:

var reg = /<!--[\d\D]*-->/g;
var html = "<!-- 內容開始 --><p>文本內容</p><!-- 內容結束 -->";

console.log(html.match(reg));
// 輸出 ["<!-- 內容開始 --><p>文本內容</p><!-- 內容結束 -->"]
複製代碼

與貪婪匹配相對應的是惰性匹配,說了是相對,因此惰性匹配會優先嘗試儘量少的文本匹配

惰性匹配的使用方式,是在量詞後面增長一個?

例如

var reg = /<!--[\d\D]*?-->/g;
var html = "<!-- 內容開始 --><p>文本內容</p><!-- 內容結束 -->";

console.log(html.match(reg));
// 輸出  ["<!-- 內容開始 -->", "<!-- 內容結束 -->"]
複製代碼

惰性匹配的匹配過程是從最少的狀況開始匹配,不符合就增長匹配的部分。而貪婪匹配的匹配過程是從最多的狀況開始匹配,不符合就減小匹配的部分。

正則表達式的模式

全局模式

咱們在使用正則表達式進行匹配時,一般只會返回首次匹配的結果,須要屢次調用匹配方法才能返回全部匹配結果。

JavaScript中,提供了一個全局模式,讓咱們能夠輕鬆地返回全部匹配結果。全局模式的使用方式很簡單,就是在表達式的最後加上一個g,須要注意的是,這個g^$等符號同樣,應該放在表達式以外。例如:

var a = "123vdsh234dd78s";
console.log(a.match(/\d+/g));
//["123", "234", "78"]
複製代碼

js語言中,還有另一種匹配方式是調用exec()方法。

var str = "123vdsh234dd78s";
var reg = /\d+/g;
var match;

while (match = reg.exec(str)) {
  console.log(match[0]);
}

//123
//76
//4
複製代碼

exec()方法在匹配成功時,會返回一個對象, 其中包含一次匹配結果的相關信息。若匹配失敗,則會返回null

上述代碼的reg變量必須使用全局模式,在使用全局模式時,正則表達式對象實際上存儲了一個索引位置(``lastIndex),用於標識上一次匹配成功的結束爲止。屢次調用exec()方法時,都會從lastIndex位置開始嘗試匹配,直到匹配失敗位置。當沒有使用全局模式時,lastIndex0,則exec()每次都是從第一個位置開始匹配,最終會致使while()出現死循環。

同時須要注意的是,對應的正則表達式必須賦值給變量以後,使用變量來執行上述的匹配。若直接使用字面量的形式,會致使每次while()的迭代執行時,都會建立一個新的正則表達式對象嘗試進行匹配,一樣會陷入死循環。

忽略大小寫

忽略大小寫也是一種經常使用的模式,啓用了忽略大小寫以後,[a-z]等價於[a-zA-Z]。忽略大小寫使用字母i來啓用。例如:

var str = '1a2A3a';
var reg = /a/ig;
str.replace(reg,'b');
// "1b2b3b"
複製代碼

單行模式

在單行模式下,.匹配能夠包含換行符在內的任意字符。使用字母s來啓用。

多行模式

多行模式主要是用來改變^$兩個符號的意義,讓其不只能夠匹配字符串的開始位置和結束位置,還能夠匹配每一行文字的開始與結束位置。

使用m來啓用。

多行模式和單行模式之間並非互補或者反義的關係,這裏須要特別注意。

粘連模式

在正則表達式的匹配過程當中,若是須要連續進行匹配,每一次匹配都會從上一次匹配結束的位置開始進行嘗試。

有時咱們但願在上一次匹配結束位置進行匹配嘗試時,只要匹配失敗就退出匹配過程,不要改變起始位置繼續進行嘗試。這種方式以便被稱爲粘連模式( sticky ),在不一樣語言中有不一樣的使用方式

ES6中,引入了模式修飾符y,用於表示粘連模式。

例如:

var reg = /([a-z]\w+),?/gi;
var str = "fdf5,f38s,dfk4,4d_f";
var match;
while (match = reg.exec(str)) {
  console.log(match[1]);
}
//fdf5
//f38s
//d_f
//dfk4

複製代碼

上述代碼咱們本來須要的是輸出以逗號隔開且首字符爲英文字母的片斷,可是咱們獲得了一個意外的值:d_f

當咱們使用粘連模式時:

var reg = /([a-z]\w+),?/giy;
var str = "fdf5,f38s,4d_f,dfk4";
var match;
while (match = reg.exec(str)) {
  console.log(match[1]);
}
//fdf5
//f38s
複製代碼

能夠看到,匹配到4d_f時,已經不符合要求,此時匹配並無繼續去進行嘗試以後的字符,因此沒有輸出最後一個符合要求的dfk4

粘連模式並非一個經常使用的模式,通常用於檢驗特定文本是否徹底嚴格符合預設的規則

JavaScript正則的書寫

在JavaScript中,最經常使用的書寫方式是使用字面量方式。

var reg = /[\d]+/;
複製代碼

字面量方式,在正則表達式先後分別使用斜槓/來做爲界定符,用於區分該部分是否爲正則表達式。當咱們須要使用模式時,則直接在後面得斜槓以後加上對應的模式便可。

另外一種方式則是構造器方式

var reg = new RegExp("http://[a-z]+\\.google\\.com");
複製代碼

他們之間的區別在於:

  • 構造器方式使用字符串做爲參數,不須要使用斜槓/當作界定符,也不須要對錶達式內部的斜槓進行轉義。
  • 在js語言的字符串中,反斜槓\是具備特殊意義的,用於轉移,因此在使用時,須要再加一個反斜槓,對反斜槓自己進行一個轉義。主要注意的是,不只是表達是內部,在js的字符串中書寫也須要進行轉義。

若是須要在構造器中使用模式,則須要爲狗在其提供第二個字符串參數。

var reg = new RegExp("^[a-z]:(\\\\[\\w]+)+$", "i");
複製代碼

總結

正則表達式,是一種很是強大,可讓咱們輕鬆檢索、替換符合規則的文本。讓咱們能夠省下不少時間和過程,可是同時須要注意的是,使用的表達式結構越長越複雜,閱讀難度也就越大。因此咱們在使用的時候仍是須要儘可能熟練掌握正則的編寫規則,避免忽略掉某些必要的因素,致使沒法得到咱們最終想要的結果。

相關文章
相關標籤/搜索