正則表達式詳解-Regex

時間 2019-11-19

原文原文鏈接

1.什麼是正則表達式

正則表達式是對字符串操做的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個「規則字符串」，這個「規則字符串」用來表達對字符串的一種過濾邏輯。給定一個正則表達式和另外一個字符串，能夠經過正則表達式從字符串中獲取咱們想要的特定部分。正則表達式靈活性、邏輯性和功能性很是強，能夠迅速地用極簡單的方式達到字符串額複雜控制，但對於共接觸的人來講比較晦澀難懂。因爲正則表達式主要應用對象是文本，所以他在各類文本編輯器場合都有應用。html

2.概念

正則表達式，又稱規則表達式。（英語：Regular Expression，在代碼中常簡寫爲regex、regexp或RE），計算機科學的一個概念。正則表達式一般被用來檢索、替換那些符合某個模式(規則)的文本。許多程序設計語言都支持利用正則表達式進行字符串操做。例如，在 Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由 Unix中的工具軟件（例如sed和 grep）普及開的。正則表達式一般縮寫成「regex」，單數有regexp、regex，複數有regexps、regexes、regexen。

3.語法

您極可能使用 ? 和 * 通配符來查找硬盤上的文件。? 通配符匹配文件名中的 0 個或 1 個字符，而 * 通配符匹配零個或多個字符。下面先給出一個簡單的示例1正則表達式

正則表達式規則： ^[0-9]+abc$算法

^ 爲匹配輸入字符串的開始位置。express

[0-9]+匹配多個數字， [0-9] 匹配單個數字，+ 匹配"+"號前面的字符（這裏是數字[0-9]）一個或者多個。網絡

abc$匹配字母 abc 並以 abc 結尾，$ 爲匹配輸入字符串的結束位置。編輯器

以上的正則表達式能夠匹配 123abc, 0abc, 可是不能夠匹配 123abcd，abc, 由於不符合正則表達式規則工具

示例2測試

以上的正則表達式能夠匹配 runoob、runoob一、run-oob、run_oob，但不匹配 ru，由於它包含的字母過短了，小於 3 個沒法匹配。也不匹配 runoob$, 由於它包含特殊字符。網站

正則表達式在線測試工具編碼

https://c.runoob.com/front-end/854

https://regex101.com/($$推薦)

正則表達式(regular expression)描述了一種字符串匹配的模式（pattern），能夠用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。

例如：

runoo+b，能夠匹配 runoob、runooob、runoooooob 等，+ 號表明前面的字符必須至少出現一次（1次或屢次）。
runoo*b，能夠匹配 runob、runoob、runoooooob 等，* 號表明字符能夠不出現，也能夠出現一次或者屢次（0次、或1次、或屢次）。
colou?r 能夠匹配 color 或者 colour，? 問號表明前面的字符最多隻能夠出現一次（0次、或1次）。

構造正則表達式的方法和建立數學表達式的方法同樣。也就是用多種元字符與運算符能夠將小的表達式結合在一塊兒來建立更大的表達式。正則表達式的組件能夠是單個的字符、字符集合、字符範圍、字符間的選擇或者全部這些組件的任意組合。

正則表達式是由普通字符（例如字符 a 到 z）以及特殊字符（稱爲"元字符"）組成的文字模式。模式描述在搜索文本時要匹配的一個或多個字符串。正則表達式做爲一個模板，將某個字符模式與所搜索的字符串進行匹配。

4.表達式全集

字符	描述
\	將下一個字符標記爲一個特殊字符、或一個原義字符、或一個向後引用、或一個八進制轉義符。例如，「`n`」匹配字符「`n`」。「`\n`」匹配一個換行符。串行「`\\`」匹配「`\`」而「`\(`」則匹配「`(`」。
^	匹配輸入字符串的開始位置。若是設置了RegExp對象的Multiline屬性，^也匹配「`\n`」或「`\r`」以後的位置。
$	匹配輸入字符串的結束位置。若是設置了RegExp對象的Multiline屬性，$也匹配「`\n`」或「`\r`」以前的位置。
*	匹配前面的子表達式零次或屢次。例如，zo能匹配「`z`」以及「`zoo`」。等價於{0,}。
+	匹配前面的子表達式一次或屢次。例如，「`zo+`」能匹配「`zo`」以及「`zoo`」，但不能匹配「`z`」。+等價於{1,}。
?	匹配前面的子表達式零次或一次。例如，「`do(es)?`」能夠匹配「`does`」或「`does`」中的「`do`」。?等價於{0,1}。
{n}	n是一個非負整數。匹配肯定的n次。例如，「`o{2}`」不能匹配「`Bob`」中的「`o`」，可是能匹配「`food`」中的兩個o。
{n,}	n是一個非負整數。至少匹配n次。例如，「`o{2,}`」不能匹配「`Bob`」中的「`o`」，但能匹配「`foooood`」中的全部o。「`o{1,}`」等價於「`o+`」。「`o{0,}`」則等價於「`o*`」。
{n,m}	m和n均爲非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，「`o{1,3}`」將匹配「`fooooood`」中的前三個o。「`o{0,1}`」等價於「`o?`」。請注意在逗號和兩個數之間不能有空格。
?	當該字符緊跟在任何一個其餘限制符（*,+,?，{n}，{n,}，{n,m}）後面時，匹配模式是非貪婪的。非貪婪模式儘量少的匹配所搜索的字符串，而默認的貪婪模式則儘量多的匹配所搜索的字符串。例如，對於字符串「`oooo`」，「`o+?`」將匹配單個「`o`」，而「`o+`」將匹配全部「`o`」。
.	匹配除「`\n`」以外的任何單個字符。要匹配包括「`\n`」在內的任何字符，請使用像「`(.\|\n)`」的模式。
(pattern)	匹配pattern並獲取這一匹配。所獲取的匹配能夠從產生的Matches集合獲得，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字符，請使用「`$`」或「`$`」。
(?:pattern)	匹配pattern但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供之後使用。這在使用或字符「`(\|)`」來組合一個模式的各個部分是頗有用。例如「`industr(?:y\|ies)`」就是一個比「`industry\|industries`」更簡略的表達式。
(?=pattern)	正向確定預查，在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不須要獲取供之後使用。例如，「`Windows(?=95\|98\|NT\|2000)`」能匹配「`Windows2000`」中的「`Windows`」，但不能匹配「`Windows3.1`」中的「`Windows`」。預查不消耗字符，也就是說，在一個匹配發生後，在最後一次匹配以後當即開始下一次匹配的搜索，而不是從包含預查的字符以後開始。
(?!pattern)	正向否認預查，在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不須要獲取供之後使用。例如「`Windows(?!95\|98\|NT\|2000)`」能匹配「`Windows3.1`」中的「`Windows`」，但不能匹配「`Windows2000`」中的「`Windows`」。預查不消耗字符，也就是說，在一個匹配發生後，在最後一次匹配以後當即開始下一次匹配的搜索，而不是從包含預查的字符以後開始
(?<=pattern)	反向確定預查，與正向確定預查類擬，只是方向相反。例如，「`(?<=95\|98\|NT\|2000)Windows`」能匹配「`2000Windows`」中的「`Windows`」，但不能匹配「`3.1Windows`」中的「`Windows`」。
(?<!pattern)	反向否認預查，與正向否認預查類擬，只是方向相反。例如「`(?<!95\|98\|NT\|2000)Windows`」能匹配「`3.1Windows`」中的「`Windows`」，但不能匹配「`2000Windows`」中的「`Windows`」。
x\|y	匹配x或y。例如，「`z\|food`」能匹配「`z`」或「`food`」。「`(z\|f)ood`」則匹配「`zood`」或「`food`」。
[xyz]	字符集合。匹配所包含的任意一個字符。例如，「`[abc]`」能夠匹配「`plain`」中的「`a`」。
[^xyz]	負值字符集合。匹配未包含的任意字符。例如，「`[^abc]`」能夠匹配「`plain`」中的「`p`」。
[a-z]	字符範圍。匹配指定範圍內的任意字符。例如，「`[a-z]`」能夠匹配「`a`」到「`z`」範圍內的任意小寫字母字符。
[^a-z]	負值字符範圍。匹配任何不在指定範圍內的任意字符。例如，「`[^a-z]`」能夠匹配任何不在「`a`」到「`z`」範圍內的任意字符。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如，「`er\b`」能夠匹配「`never`」中的「`er`」，但不能匹配「`verb`」中的「`er`」。
\B	匹配非單詞邊界。「`er\B`」能匹配「`verb`」中的「`er`」，但不能匹配「`never`」中的「`er`」。
\cx	匹配由x指明的控制字符。例如，\cM匹配一個Control-M或回車符。x的值必須爲A-Z或a-z之一。不然，將c視爲一個原義的「`c`」字符。
\d	匹配一個數字字符。等價於[0-9]。
\D	匹配一個非數字字符。等價於[^0-9]。
\f	匹配一個換頁符。等價於\x0c和\cL。
\n	匹配一個換行符。等價於\x0a和\cJ。
\r	匹配一個回車符。等價於\x0d和\cM。
\s	匹配任何空白字符，包括空格、製表符、換頁符等等。等價於[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等價於[^ \f\n\r\t\v]。
\t	匹配一個製表符。等價於\x09和\cI。
\v	匹配一個垂直製表符。等價於\x0b和\cK。
\w	匹配包括下劃線的任何單詞字符。等價於「`[A-Za-z0-9_]`」。
\W	匹配任何非單詞字符。等價於「`[^A-Za-z0-9_]`」。
\xn	匹配n，其中n爲十六進制轉義值。十六進制轉義值必須爲肯定的兩個數字長。例如，「`\x41`」匹配「`A`」。「`\x041`」則等價於「`\x04&1`」。正則表達式中可使用ASCII編碼。.
\num	匹配num，其中num是一個正整數。對所獲取的匹配的引用。例如，「`(.)\1`」匹配兩個連續的相同字符。
\n	標識一個八進制轉義值或一個向後引用。若是\n以前至少n個獲取的子表達式，則n爲向後引用。不然，若是n爲八進制數字（0-7），則n爲一個八進制轉義值。
\nm	標識一個八進制轉義值或一個向後引用。若是\nm以前至少有nm個得到子表達式，則nm爲向後引用。若是\nm以前至少有n個獲取，則n爲一個後跟文字m的向後引用。若是前面的條件都不知足，若n和m均爲八進制數字（0-7），則\nm將匹配八進制轉義值nm。
\nml	若是n爲八進制數字（0-3），且m和l均爲八進制數字（0-7），則匹配八進制轉義值nml。
\un	匹配n，其中n是一個用四個十六進制數字表示的Unicode字符。例如，\u00A9匹配版權符號（©）。

5.經常使用正則表達式

用戶名	/^[a-z0-9_-]{3,16}$/
密碼	/^[a-z0-9_-]{6,18}$/
十六進制值	/^#?([a-f0-9]{6}\|[a-f0-9]{3})$/
電子郵箱	/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/ /^[a-z\d]+(\.[a-z\d]+)*@([\da-z](-[\da-z])?)+(\.{1,2}[a-z]+)+$/
URL	/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-])\/?$/
IP 地址	/((2[0-4]\d\|25[0-5]\|[01]?\d\d?)\.){3}(2[0-4]\d\|25[0-5]\|[01]?\d\d?)/ /^(?:(?:25[0-5]\|2[0-4][0-9]\|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]\|2[0-4][0-9]\|[01]?[0-9][0-9]?)$/
HTML 標籤	/^<([a-z]+)([^<]+)(?:>(.)<\/\1>\|\s+\/>)$/
刪除代碼\\註釋	(?<!http:\|\S)//.*$
Unicode編碼中的漢字範圍	/^[\u2E80-\u9FFF]+$/

6.爲何使用正則表達式？

典型的搜索和替換操做要求您提供與預期的搜索結果匹配的確切文本。雖然這種技術對於對靜態文本執行簡單搜索和替換任務可能已經足夠了，但它缺少靈活性，若採用這種方法搜索動態文本，即便不是不可能，至少也會變得很困難。

經過使用正則表達式，能夠：

測試字符串內的模式。
例如，能夠測試輸入字符串，以查看字符串內是否出現電話號碼模式或信用卡號碼模式。這稱爲數據驗證。
替換文本。
可使用正則表達式來識別文檔中的特定文本，徹底刪除該文本或者用其餘文本替換它。
基於模式匹配從字符串中提取子字符串。
能夠查找文檔內或輸入域內特定的文本。

例如，您可能須要搜索整個網站，刪除過期的材料，以及替換某些 HTML 格式標記。在這種狀況下，可使用正則表達式來肯定在每一個文件中是否出現該材料或該 HTML 格式標記。此過程將受影響的文件列表縮小到包含須要刪除或更改的材料的那些文件。而後可使用正則表達式來刪除過期的材料。最後，可使用正則表達式來搜索和替換標記。