正則表達式—RegEx(RegularExpressio)（一）

時間 2019-11-11

標籤正則表達式 regex regularexpressio 欄目正則表達式简体版

原文原文鏈接

今日隨筆，想和你們分享一下正則表達式的相關知識。正則表達式

先不說概念性的東西，舉一個例子再說。函數

驗證你輸入的郵政編碼，你輸入的郵政編碼必須是六位的數字。測試

while (true)
            {
                Console.WriteLine("輸入郵政編碼");
                string codeRegex = "^[0-9]{6}$";//建立正則表達式模式
                string code = Console.ReadLine();
                Console.WriteLine(Regex.IsMatch(code, codeRegex));//調用Regex的IsMatch方法，第一個參數是你輸入要匹配的字符串，第二個參數正則表達式模式，返回的結果是一個Boolean類型

測試結果：編碼

C#中，用using System.Text.RegularExpressions命名空間下的Regex類來操做正則表達式。spa

上個例子中調用了Regex的靜態方法IsMatch，來判斷輸入的字符串code是否與表達式模式codeRegex 相匹配，若是匹配，則返回一個True，不匹配則返回False。 code

　　注:也能夠不調用Regex的靜態方法，而是用 new關鍵字調用Regex的構造函數來建立一個Regex類的對象，如：Regex re = new Regex(codeRegex)，其中正則表達式模式codeRegex做爲構造函數的參數，而後經過re對象也能夠調用　　　　 IsMatch方法：re.IsMatch(code,codeRegex)。其實經過Regex類型調用靜態函數內部，也是建立了一個類型對象，經過類型對象調用IsMatch方法。對象

如今讓咱們看看 codeRegex = "^[0-9]{6}$"是個什麼東東。blog

Microsoft稱它爲正則表達式模式，其中[0-9]表明的是0到9任意一個數字，屬於元字符，{6}則表示前面的[0-9]必須出現6次，那麼有的小夥伴就會問了，這不是已經齊了嗎，0到9的任意數字出現六次，已經符合郵政編碼的要求了啊，那^和$又表明的什麼意思呢。ip

^：表示匹配輸入字符串開始的位置，例如^a則表示符合匹配的字符串必須是以a開頭的。字符串

$：表示匹配輸入字符串結束的位置，例如z$則表示符合匹配的字符串必須是以z結束的。

那爲何要加上這兩個限定符呢，覺得IsMatch檢測code匹配時，它只要檢測到code字符串中只要有符合codeRegex正則表達式模式的字符串段，那麼它就會返回True。例如若個輸入的字符串爲"afdasf100000aaaaa"，IsMatch返回的也是True，覺得在這個字符串中，中間的100000符合codeRegex.因此你要限定的是徹底匹配的話，則先後必須加上^和$。這裏表明以六個任意數字爲開頭，而且以任意六個數字爲結尾，並且中間只能有六個任意數字。

下表包含了元字符的完整列表以及它們在正則表達式上下文中的行爲：

字符	說明
\	將下一字符標記爲特殊字符、文本、反向引用或八進制轉義符。例如，「n」匹配字符「n」。「\n」匹配換行符。序列「\\」匹配「\」，「\(」匹配「(」。
^	匹配輸入字符串開始的位置。若是設置了 RegExp 對象的 Multiline 屬性，^ 還會與「\n」或「\r」以後的位置匹配。
$	匹配輸入字符串結尾的位置。若是設置了 RegExp 對象的 Multiline 屬性，$ 還會與「\n」或「\r」以前的位置匹配。
*	零次或屢次匹配前面的字符或子表達式。例如，zo* 匹配「z」和「zoo」。* 等效於 {0,}。
+	一次或屢次匹配前面的字符或子表達式。例如，「zo+」與「zo」和「zoo」匹配，但與「z」不匹配。+ 等效於 {1,}。
?	零次或一次匹配前面的字符或子表達式。例如，「do(es)?」匹配「do」或「does」中的「do」。? 等效於 {0,1}。
{n}	n 是非負整數。正好匹配 n 次。例如，「o{2}」與「Bob」中的「o」不匹配，但與「food」中的兩個「o」匹配。
{n,}	n 是非負整數。至少匹配 n 次。例如，「o{2,}」不匹配「Bob」中的「o」，而匹配「foooood」中的全部 o。「o{1,}」等效於「o+」。「o{0,}」等效於「o*」。
{n,m}	M 和 n 是非負整數，其中 n <= m。匹配至少 n 次，至多 m 次。例如，「o{1,3}」匹配「fooooood」中的頭三個 o。'o{0,1}' 等效於 'o?'。注意：您不能將空格插入逗號和數字之間。
?	當此字符緊隨任何其餘限定符（*、+、?、{n}、{n,}、{n,m}）以後時，匹配模式是「非貪心的」。「非貪心的」模式匹配搜索到的、儘量短的字符串，而默認的「貪心的」模式匹配搜索到的、儘量長的字符串。例如，在字符串「oooo」中，「o+?」只匹配單個「o」，而「o+」匹配全部「o」。
.	匹配除「\n」以外的任何單個字符。若要匹配包括「\n」在內的任意字符，請使用諸如「[\s\S]」之類的模式。
(pattern)	匹配 pattern 並捕獲該匹配的子表達式。可使用 $0…$9 屬性從結果「匹配」集合中檢索捕獲的匹配。若要匹配括號字符 ( )，請使用「$」或者「$」。
(?:pattern)	匹配 pattern 但不捕獲該匹配的子表達式，即它是一個非捕獲匹配，不存儲供之後使用的匹配。這對於用「or」字符 (\|) 組合模式部件的狀況頗有用。例如，'industr(?:y\|ies) 是比 'industry\|industries' 更經濟的表達式。
(?=pattern)	執行正向預測先行搜索的子表達式，該表達式匹配處於匹配 pattern 的字符串的起始點的字符串。它是一個非捕獲匹配，即不能捕獲供之後使用的匹配。例如，'Windows (?=95\|98\|NT\|2000)' 匹配「Windows 2000」中的「Windows」，但不匹配「Windows 3.1」中的「Windows」。預測先行不佔用字符，即發生匹配後，下一匹配的搜索緊隨上一匹配以後，而不是在組成預測先行的字符後。
(?!pattern)	執行反向預測先行搜索的子表達式，該表達式匹配不處於匹配 pattern 的字符串的起始點的搜索字符串。它是一個非捕獲匹配，即不能捕獲供之後使用的匹配。例如，'Windows (?!95\|98\|NT\|2000)' 匹配「Windows 3.1」中的「Windows」，但不匹配「Windows 2000」中的「Windows」。預測先行不佔用字符，即發生匹配後，下一匹配的搜索緊隨上一匹配以後，而不是在組成預測先行的字符後。
x\|y	匹配 x 或 y。例如，'z\|food' 匹配「z」或「food」。'(z\|f)ood' 匹配「zood」或「food」。
[xyz]	字符集。匹配包含的任一字符。例如，「[abc]」匹配「plain」中的「a」。
[^xyz]	反向字符集。匹配未包含的任何字符。例如，「[^abc]」匹配「plain」中的「p」。
[a-z]	字符範圍。匹配指定範圍內的任何字符。例如，「[a-z]」匹配「a」到「z」範圍內的任何小寫字母。
[^a-z]	反向範圍字符。匹配不在指定的範圍內的任何字符。例如，「[^a-z]」匹配任何不在「a」到「z」範圍內的任何字符。
\b	匹配一個字邊界，即字與空格間的位置。例如，「er\b」匹配「never」中的「er」，但不匹配「verb」中的「er」。
\B	非字邊界匹配。「er\B」匹配「verb」中的「er」，但不匹配「never」中的「er」。
\cx	匹配 x 指示的控制字符。例如，\cM 匹配 Control-M 或回車符。x 的值必須在 A-Z 或 a-z 之間。若是不是這樣，則假定 c 就是「c」字符自己。
\d	數字字符匹配。等效於 [0-9]。
\D	非數字字符匹配。等效於 [^0-9]。
\f	換頁符匹配。等效於 \x0c 和 \cL。
\n	換行符匹配。等效於 \x0a 和 \cJ。
\r	匹配一個回車符。等效於 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、製表符、換頁符等。與 [ \f\n\r\t\v] 等效。
\S	匹配任何非空白字符。與 [^ \f\n\r\t\v] 等效。
\t	製表符匹配。與 \x09 和 \cI 等效。
\v	垂直製表符匹配。與 \x0b 和 \cK 等效。
\w	匹配任何字類字符，包括下劃線。與「[A-Za-z0-9_]」等效。
\W	與任何非單詞字符匹配。與「[^A-Za-z0-9_]」等效。
\xn	匹配 n，此處的 n 是一個十六進制轉義碼。十六進制轉義碼必須正好是兩位數長。例如，「\x41」匹配「A」。「\x041」與「\x04」&「1」等效。容許在正則表達式中使用 ASCII 代碼。
\num	匹配 num，此處的 num 是一個正整數。到捕獲匹配的反向引用。例如，「(.)\1」匹配兩個連續的相同字符。
\n	標識一個八進制轉義碼或反向引用。若是 \n 前面至少有 n 個捕獲子表達式，那麼 n 是反向引用。不然，若是 n 是八進制數 (0-7)，那麼 n 是八進制轉義碼。
\nm	標識一個八進制轉義碼或反向引用。若是 \nm 前面至少有 nm 個捕獲子表達式，那麼 nm 是反向引用。若是 \nm 前面至少有 n 個捕獲，則 n 是反向引用，後面跟有字符 m。若是兩種前面的狀況都不存在，則 \nm 匹配八進制值 nm，其中 n 和 m 是八進制數字 (0-7)。
\nml	當 n 是八進制數 (0-3)，m 和 l 是八進制數 (0-7) 時，匹配八進制轉義碼 nml。
\un	匹配 n，其中 n 是以四位十六進制數表示的 Unicode 字符。例如，\u00A9 匹配版權符號 (©)。

上面的元字符，就一些經常使用的舉一些例子

.（點）：表示能夠匹配除了\n以外的任何單個字符，例如：x.o 那麼 xao xbo xco x$o 都是匹配的。

[] :表示一個字符集，例如：[abc]表示匹配a或者b或者c均可以，[a-z]表示小寫a到小寫z的26個英文字母都匹配，[0-9]表示0-9人一個的一個數字均可以匹配。

* :表示零次或屢次匹配前面的字符或子表達式。例如，zo* 那麼 z能夠，zo也能夠，zooooooo還能夠。

+ :表示至少出現一次 zo+ 表示:zo能夠，zoooooo也能夠，可是z就不匹配了。

？ :表示零次或1次匹配前面的字符或子表達式。 zo?：那麼只有用 z 或者zo能夠匹配。

{} :屬於限定符，限定前面的字符或者表達式出現的次數 {n}：表示出現n次 {n，m}：表示出現n或者n+1次或者……一直到m次。{n,}表示至少出現n次。

[^] :反向範圍字符。匹配不在指定的範圍內的任何字符。例如，「[^a-z]」匹配任何不在「a」到「z」範圍內的任何字符。注意^出如今[]外面表明另外一個意思。

^：表示匹配輸入字符串開始的位置，例如^a則表示符合匹配的字符串必須是以a開頭的。

$：表示匹配輸入字符串結束的位置，例如z$則表示符合匹配的字符串必須是以z結束的。

|: 表示或。這個或的優先級低。小括號，能夠改變優先級。

\w :匹配任何字類字符，包括下劃線。與「[A-Za-z0-9_]」等效。

\d :數字字符匹配。等效於 [0-9]。

上面是一些經常使用的，不全，若是想多瞭解一些能夠gogole，一查一大把。。。

概念性的東西已經介紹的差很少了，如今讓咱們作個小練習鞏固一下哈。

練習你知道什麼樣的字符串匹配這三個表達式模式嗎？ "z|food" "^z|food$" "^(z|f)ood$"

一、"z|food" ： z匹配嗎，food？ zood？ abcdfoodefg？ abdkjjfajfldazffjfjf？

二、"^z|food$" z匹配嗎，food？ zood？ zaaaaaaa？ asdffdsafood？

三、"^(z|f)ood$" ：z匹配嗎，food？ zood？ zaaaaaaa？ asdffdsafood？

先不要看答案哦本身多思考一下哈。。。。。。

一、這些都匹配 "z|food" 表示爲，你輸入的字符串中，其中只要有匹配z或者匹配food的字符串段就能夠。

二、這些也都匹配「^z|food$" ：表示只要是以z開頭的字符串或者以food結尾的字符串均可以匹配。

三、只要前兩個匹配哦,"^(z|f)ood$"：必須已zood開頭而且以zood結尾或者已food開頭而且以food結尾。

小夥伴們，大家答對了嗎？筆者第一次作這個題的時候沒有得滿分。。。。慚愧慚愧！

對了，還要說一點，正則表達式只對字符串有用，若是脫離了這個範疇，就沒有用了。在一點寫正則表達式的最主要的就是找規律，只有你找到規律才能寫出正確的正則表達式

下面在聚一些例子

namespace RegexExpression
{
    class Program
    {
        static void Main(string[] args)
        {
            #region 驗證郵政編碼

            while (true)
            {
                Console.WriteLine("輸入郵政編碼");
                string codeRegex = "^[0-9]{6}$";
                string code = Console.ReadLine();
                Console.WriteLine(Regex.IsMatch(code, codeRegex));
            }
            #endregion
            
            #region 輸入10-20的數
            for (int i = 0; i < 100; i++)
            {
                string str = i.ToString();
                if (Regex.IsMatch(str, "^(1[0-9]|20)$"))
                {
                    Console.WriteLine(str + " " + true);
                }
                else
                {
                    Console.WriteLine(str + " " + false);
                }
            }
            Console.ReadLine();
            #endregion

            //寫正則表達式的最主要的就是 找規律，只有你找到規律才能寫出正確的正則表達式

            // 練習 "z|food"  "^z|food$"  "^(z|f)ood$"

            #region 判斷是不是手機號碼
             //010-8888888, 0100-888888, 0108888888, 01008888888, 5位數字, 13位手機號碼

            string regexExp = @"^((0\d{2,3}\-?\d{7,8})|(\d{11}))$";
            while (true)
            {
                string phone = Console.ReadLine();
                Console.WriteLine(Regex.IsMatch(phone, regexExp));
            }

            #endregion

            #region 驗證郵箱
            string regexExp = @"^\w+@\w+(\.\w+){1,3}$";
            while (true)
            {
                string email = Console.ReadLine();
                Console.WriteLine(Regex.IsMatch(email, regexExp));
            }

            #endregion

            #region  驗證ip地址
            string regexExp = @"^(\d{1,3}\.){3}\d{1,3}$";
            while (true)
            {
                string ip = Console.ReadLine();
                Console.WriteLine(Regex.IsMatch(ip, regexExp));
            }
            #endregion

            #region  驗證日期
            string regexExp = @"^\d{4}-(0[1-9]|1[0-2])-([012][0-9]|3[01])$";
            while (true)
            {
                string date = Console.ReadLine();
                Console.WriteLine(Regex.IsMatch(date, regexExp));
            }
            #endregion

            
            
        }
        
    }
}