正則表達式必知必會

時間 2019-12-10

原文原文鏈接

基本概念
正則表達式描述了一種字符串匹配的文字模式，由普通字符（例如字符 a 到 z）以及特殊字符（稱爲元字符）組成，將該模式與所搜索的字符串進行匹配。
通俗的講，正則表達式至關於定義了一個模板，從某個字符串中按照這個模板進行某種。好比檢查是否含有某種子字符串，將匹配的子字符串作替換，從某個字符串中取出符合條件的子字符串等。php

字符組成
正則表達式是由普通字符（例如字符 a 到 z）以及特殊字符（稱爲元字符）組成的文字模式。html

普通字符java

由全部那些未顯式指定爲元字符的打印和非打印字符組成。這包括全部的大寫和小寫字母字符，全部數字，全部標點符號以及一些符號。jquery

非打印字符git

字符	含義
\cx	匹配由x指明的控制字符。例如， \cM 匹配一個 Control-M 或回車符。x 的值必須爲 A-Z 或 a-z 之一。不然，將 c 視爲一個原義的 'c' 字符。
\f	匹配一個換頁符。等價於 \x0c 和 \cL。
\n	匹配一個換行符。等價於 \x0a 和 \cJ。
\r	匹配一個回車符。等價於 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等價於 [^ \f\n\r\t\v]。
\t	匹配一個製表符。等價於 \x09 和 \cI。
\v	匹配一個垂直製表符。等價於 \x0b 和 \cK。

特殊字符正則表達式

所謂特殊字符，就是一些有特殊含義的字符，如上面說的"*.txt"中的*，簡單的說就是表示任何字符串的意思。若是要查找文件名中有＊的文件，則須要對＊進行轉義，即在其前加一個\。ls \*.txt。正則表達式有如下特殊字符。api

特備字符	說明
$	匹配輸入字符串的結尾位置。若是設置了 RegExp 對象的 Multiline 屬性，則 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符自己，請使用 \$
()	標記一個子表達式的開始和結束位置。子表達式能夠獲取供之後使用。要匹配這些字符，請使用 $ 和 $
*	匹配前面的子表達式零次或屢次。要匹配 * 字符，請使用 \*
+	匹配前面的子表達式一次或屢次。要匹配 + 字符，請使用 \+
.	匹配除換行符 \n以外的任何單字符。要匹配 .，請使用 \
[	標記一箇中括號表達式的開始。要匹配 [，請使用 \[
?	匹配前面的子表達式零次或一次，或指明一個非貪婪限定符。要匹配 ? 字符，請使用 \?
\	將下一個字符標記爲或特殊字符、或原義字符、或向後引用、或八進制轉義符。例如， 'n' 匹配字符 'n'。'\n' 匹配換行符。序列 '\\' 匹配 "\"，而 '\(' 則匹配 "("
^	匹配輸入字符串的開始位置，除非在方括號表達式中使用，此時它表示不接受該字符集合。要匹配 ^ 字符自己，請使用 \^
{	標記限定符表達式的開始。要匹配 {，請使用 \{
\|	指明兩項之間的一個選擇。要匹配 \|，請使用 \\|

限定符
限定符用來指定正則表達式的一個給定組件必需要出現多少次才能知足匹配。有*或+或?或{n}或{n,}或{n,m}共6種。
*、+和?限定符都是貪婪的，由於它們會盡量多的匹配文字，只有在它們的後面加上一個?就能夠實現非貪婪或最小匹配。
正則表達式的限定符有：數組

字符	描述
*	匹配前面的子表達式零次或屢次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等價於{0,}
+	匹配前面的子表達式一次或屢次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價於 {1,}
？	匹配前面的子表達式零次或一次。例如，"do(es)?" 能夠匹配 "do" 或 "does" 中的"do" 。? 等價於 {0,1}
{n}	n 是一個非負整數。匹配肯定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，可是能匹配 "food" 中的兩個 o
{n,}	n 是一個非負整數。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的全部 o。'o{1,}' 等價於 'o+'。'o{0,}' 則等價於 'o*'
{n,m}	m 和 n 均爲非負整數，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價於 'o?'。請注意在逗號和兩個數之間不能有空格

定位符緩存

用來描述字符串或單詞的邊界，^和$分別指字符串的開始與結束，\b描述單詞的前或後邊界，\B表示非單詞邊界。不能對定位符使用限定符。app

選擇
用圓括號將全部選擇項括起來，相鄰的選擇項之間用|分隔。但用圓括號會有一個反作用，是相關的匹配會被緩存，此時可用?:放在第一個選項前來消除這種反作用。
其中?:是非捕獲元之一，還有兩個非捕獲元是?=和?!，這兩個還有更多的含義，前者爲正向預查，在任何開始匹配圓括號內的正則表達式模式的位置來匹配搜索字符串，後者爲負向預查，在任何開始不匹配該正則表達式模式的位置來匹配搜索字符串。

後向引用
對一個正則表達式模式或部分模式兩邊添加圓括號將致使相關匹配存儲到一個臨時緩衝區中，所捕獲的每一個子匹配都按照在正則表達式模式中從左至右所遇到的內容存儲。存儲子匹配的緩衝區編號從 1 開始，連續編號直至最大 99 個子表達式。每一個緩衝區均可以使用 '\n' 訪問，其中 n 爲一個標識特定緩衝區的一位或兩位十進制數。
可使用非捕獲元字符 '?:', '?=', or '?!' 來忽略對相關匹配的保存。

運算優先級
相同優先級的從左到右進行運算，不一樣優先級的運算先高後低。各類操做符的優先級從高到低以下：

操做符	描述
\	轉義符
(), (?:), (?=), []	圓括號和方括號
*, +, ?, {n}, {n,}, {n,m}	限定符
^, $, \anymetacharacter	位置和順序
\|	「或」操做

匹配規則

基本模式匹配
一切從最基本的開始。模式，是正規表達式最基本的元素，它們是一組描述字符串特徵的字符。模式能夠很簡單，由普通的字符串組成，也能夠很是複雜，每每用特殊的字符表示一個範圍內的字符、重複出現，或表示上下文。例如：

^once：這個模式包含一個特殊的字符^，表示該模式只匹配那些以once開頭的字符串。例如該模式與字符串"once upon a time"匹配，與"There once was a man from NewYork"不匹配。正如^符號表示開頭同樣，$符號用來匹配那些以給定模式結尾的字符串。
bucket$：這個模式與"Who kept all of this cash in a bucket"匹配，與"buckets"不匹配。字符^和$同時使用時，表示精確匹配（字符串與模式同樣）。

例如：^bucket$只匹配字符串"bucket"。若是一個模式不包括^和$，那麼它與任何包含該模式的字符串匹配。

例如：模式once與字符串Who kept all of his cash in a bucket.是匹配的。在該模式中的字母(o-n-c-e)是字面的字符，也就是說，他們表示該字母自己，數字也是同樣的。

其餘一些稍微複雜的字符，如標點符號和白字符（空格、製表符等），要用到轉義序列。全部的轉義序列都用反斜槓(\)打頭。製表符的轉義序列是：\t。因此若是咱們要檢測一個字符串是否以製表符開頭，能夠用這個模式：^\t

相似的，用\n表示「新行」，\r表示回車。其餘的特殊符號，能夠用在前面加上反斜槓，如反斜槓自己用\\表示，句號.用\.表示，以此類推。

字符簇
在INTERNET的程序中，正規表達式一般用來驗證用戶的輸入。當用戶提交一個FORM之後，要判斷輸入的電話號碼、地址、EMAIL地址、信用卡號碼等是否有效，用普通的基於字面的字符是不夠的。
因此要用一種更自由的描述咱們要的模式的辦法，它就是字符簇。要創建一個表示全部元音字符的字符簇，就把全部的元音字符放在一個方括號裏：

[AaEeIiOoUu]

這個模式與任何元音字符匹配，但只能表示一個字符。用連字號能夠表示一個字符的範圍，如：

[a-z] //匹配全部的小寫字母 
[A-Z] //匹配全部的大寫字母 
[a-zA-Z] //匹配全部的字母 
[0-9] //匹配全部的數字 
[0-9\.\-] //匹配全部的數字，句號和減號 
[ \f\r\t\n] //匹配全部的白字符

一樣的，這些也只表示一個字符，這是一個很是重要的。若是要匹配一個由一個小寫字母和一位數字組成的字符串，好比"z2"、"t6"或"g7"，但不是"ab2"、"r2d3" 或"b52"的話，用這個模式：

^[a-z][0-9]$//儘管[a-z]表明26個字母的範圍，但在這裏它只能與第一個字符是小寫字母的字符串匹配。

前面曾經提到^表示字符串的開頭，但它還有另一個含義。當在一組方括號裏使用^是，它表示「非」或「排除」的意思，經常用來剔除某個字符。還用前面的例子，咱們要求第一個字符不能是數字：

^[^0-9][0-9]$

這個模式與"&5"、"g7"及"-2"是匹配的，但與"12"、"66"是不匹配的。下面是幾個排除特定字符的例子：

[^a-z] //除了小寫字母之外的全部字符 
[^\\\/\^] //除了(\)(/)(^)以外的全部字符 
[^\"\'] //除了雙引號(")和單引號(')以外的全部字符

特殊字符"." (點，句號)在正規表達式中用來表示除了「新行」以外的全部字符。因此模式"^.5$"與任何兩個字符的、以數字5結尾和以其餘非「新行」字符開頭的字符串匹配。模式"."能夠匹配任何字符串，除了空串和只包括一個「新行」的字符串。

PHP的正規表達式有一些內置的通用字符簇，列表以下：

字符簇	含義
[[:alpha:]]	任何字母
[[:digit:]]	任何數字
[[:alnum:]]	任何字母和數字
[[:space:]]	任何白字符
[[:upper:]]	任何大寫字母
[[:lower:]]	任何小寫字母
[[:punct:]]	任何標點符號
[[:xdigit:]]	任何16進制的數字，至關於[0-9a-fA-F]

肯定重複出現

到如今爲止，你已經知道如何去匹配一個字母或數字，但更多的狀況下，可能要匹配一個單詞或一組數字。一個單詞有若干個字母組成，一組數字有若干個單數組成。跟在字符或字符簇後面的花括號({})用來肯定前面的內容的重複出現的次數。

//字符簇及其含義 
^[a-zA-Z_]$ //全部的字母和下劃線 
^[[:alpha:]]{3}$ //全部的3個字母的單詞 
^a$ //字母a 
^a{4}$ //aaaa 
^a{2,4}$ //aa,aaa或aaaa 
^a{1,3}$ //a,aa或aaa 
^a{2,}$ //包含多於兩個a的字符串 
^a{2,} //如：aardvark和aaab，但apple不行 
a{2,} //如：baad和aaa，但Nantucket不行 
\t{2} //兩個製表符 
.{2} //全部的兩個字符

這些例子描述了花括號的三種不一樣的用法。一個數字，{x}的意思是「前面的字符或字符簇只出現x次」；一個數字加逗號，{x,}的意思是「前面的內容出現x或更多的次數」；兩個用逗號分隔的數字，{x,y}表示「前面的內容至少出現x次，但不超過y次」。咱們能夠把模式擴展到更多的單詞或數字：

^[a-zA-Z0-9_]{1,}$ //全部包含一個以上的字母、數字或下劃線的字符串 
^[0-9]{1,}$ //全部的正數 
^\-{0,1}[0-9]{1,}$ //全部的整數 
^\-{0,1}[0-9]{0,}\.{0,1}[0-9]{0,}$ //全部的小數

最後一個例子不太好理解，是嗎？這麼看吧：與全部以一個可選的負號(\-{0,1})開頭(^)、跟着0個或更多的數字([0-9]{0,})、和一個可選的小數點(\.{0,1})再跟上0個或多個數字([0-9]{0,})，而且沒有其餘任何東西($)。下面你將知道可以使用的更爲簡單的方法。

特殊字符"?"與{0,1}是相等的，它們都表明着：「0個或1個前面的內容」或「前面的內容是可選的」。因此剛纔的例子能夠簡化爲：

^\-?[0-9]{0,}\.?[0-9]{0,}$

特殊字符"*"與{0,}是相等的，它們都表明着「0個或多個前面的內容」。最後，字符"+"與 {1,}是相等的，表示「1個或多個前面的內容」，因此上面的4個例子能夠寫成：

^[a-zA-Z0-9_]+$ //全部包含一個以上的字母、數字或下劃線的字符串 
^[0-9]+$ //全部的正數 
^\-?[0-9]+$ //全部的整數 
^\-?[0-9]*\.?[0-9]*$ //全部的小數

固然這並不能從技術上下降正規表達式的複雜性，但可使它們更容易閱讀。

匹配模式

貪婪模式

最後須要特別指出的是，正則匹配默認是貪婪匹配，也就是匹配儘量多的字符。舉例以下，匹配出數字後面的0：

re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

因爲\d+採用貪婪匹配，直接把後面的0所有匹配了，結果0*只能匹配空字符串了。

必須讓\d+採用非貪婪匹配（也就是儘量少匹配），才能把後面的0匹配出來，加個?就可讓\d+採用非貪婪匹配：

re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

三種匹配模式

量　詞　種　類			意　　義
貪婪	勉強	侵佔	意　　義
`X?`	`X??`	`X?+`	匹配 X 零次或一次
`X*`	`X*?`	`X*+`	匹配 X 零次或屢次
`X+`	`X+?`	`X++`	匹配 X 一次或屢次
~~`X{n}`~~	~~`X{n}?`~~	~~`X{n}+`~~	~~匹配 X n 次~~(這個應該不存在這幾種模式，就是固定匹配n個)
`X{n,}`	`X{n,}?`	`X{n,}+`	匹配 X 至少 n 次
`X{n,m}`	`X{n,m}?`	`X{n,m}+`	匹配 X 至少 n 次，但很少於 m 次

想了解更多更詳細關於正則匹配模式，能夠參考文章：貪婪模式與非貪婪模式詳解

應用實例

判斷功能

//*拿到號碼
//*編寫規則
//*判斷是否符合規則
String phone="13831202155";
//判斷功能  電話號碼是否正確
String regex="1[3587][0-9]{9}";
boolean isTrueNumber=phone.matches(regex);

分隔功能

//*給定一個字符串
//*編寫要分隔的規則（按某種規則分隔）
//*分隔字符串供本身使用
public static void main(String[] args){
String str="我是一個小蟲子,一個小星星\\魯冰花啊";
//定義分隔規則
String regex=",|\\\\";
String[] strs=str.split(regex);
  for (String string : strs) {
    System.out.println(string);
  }
      
}

替換功能

//*定義一個要替換的字符串
//*定義替換規則
//*執行
public static void main(String[] args){
        //把這個字符串裏的非字母替換成字母j
        String s="jjkds28989309903290nms&……%##mkdskj909293。8 878&……！@~767jhdjku3928832oijdu3928";
        String regex="[^a-zA-Z]";//若是不是字母，則所有替換成字母j
        String result=s.replaceAll(regex, "j");
        System.out.println(result);
}

獲取功能

public static void main(String[] args){
        String word="hello my darling,my ha a uiio jh jkjkj hy ew df cv jkkjds hgd";
        //定義規則  \b爲單詞邊界
        String regex="\\b\\w{2}\\b";
        Pattern p=Pattern.compile(regex);
        Matcher m=p.matcher(word);
        while (m.find()) {
            System.out.println("符合規則的單詞："+m.group());
    }
}

判斷功能在java中舉例

public static void main(String[] args){
        //使用Pattern和matchers類
        //把這個字符串裏的非字母替換成字母j
        String s="11111";
        //把正則表達式編譯成模式對象
        Pattern p=Pattern.compile("[0-9]+");
        //經過模式對象獲得匹配器對象
        Matcher m=p.matcher(s);
        //調用匹配器對象的功能
        boolean isMatch=m.matches();//是否匹配
        if (isMatch) {
            System.out.println("符合規則");
        }else{
            System.out.println("不符合規則");
    }
}