正則表達式是一種文本模式。正則表達式是強大、便捷、高效的文本處理工具。正則表達式自己,加上如同一門袖珍編程語言的通用模式表示法(general pattern notation),賦予使用者描述和分析文本的能力。配合上特定工具提供的額外支持,正則表達式可以添加、刪除、分離、疊加、插入和修整各類類型的文本和數據。ios
完整的正則表達式由兩種字符構成:特殊字符(special characters)稱爲」元字符」(meta characters),其它爲」文字」(literal),或者是普通文本字符(normal text characters,如字母、數字、漢字、下劃線)。正則表達式的元字符提供了更強大的描述能力。git
和文本編輯器同樣,絕大多數高級編程語言均支持正則表達式,如Perl、Java、Python、C/C++,這些語言都有各自的正則表達式包。github
一個正則表達式僅僅爲一個字符串,它沒有長度限制。「子表達式」指的是整個正則表達式中的一部分,一般是括號內的表達式,或者是由」|」分割的多選分支。正則表達式
默認狀況下,表達式中的字母是要區分大小寫的。算法
經常使用的元字符:編程
1. 「.」: 匹配除"\n"以外的任何單個字符,若要匹配包括"\n"在內的任意字符,需使用諸如"[\s\S]"之類的模式;編程語言
2. 「^」:匹配輸入字符串的開始位置,不匹配任何字符,要匹配」^」字符自己,需使用」\^」;編輯器
3. 「$」:匹配輸入字符串結尾的位置,不匹配任何字符,要匹配」$」字符自己,需使用」\$」;函數
4. 「*」: 零次或屢次匹配前面的字符或子表達式,」*」等效於」{0,}」,如」\^*b」能夠匹配」b」、」^b」、」^^b」、…;工具
5. 「+」: 一次或屢次匹配前面的字符或子表達式,等效於」{1,}」,如」a+b」能夠匹配」ab」、」aab」、」aaab」、…;
6. 「?」: 零次或一次匹配前面的字符或子表達式,等效於」{0,1}」,如」a[cd]?」能夠匹配」a」、」ac」、」ad」; 當此字符緊隨任何其餘限定符」*」、」+」、」?」、」{n}」、」{n,}」、」{n,m}」以後時,匹配模式是"非貪心的"。"非貪心的"模式匹配搜索到的、儘量短的字符串,而默認的"貪心的"模式匹配搜索到的、儘量長的字符串。如,在字符串"oooo"中,"o+?"只匹配單個"o",而"o+"匹配全部"o";
7. 「|」:將兩個匹配條件進行邏輯"或"(Or)運算,如正則表達式」(him|her)」匹配"itbelongs to him"和"it belongs to her",可是不能匹配"itbelongs to them.";
8. 「\」: 將下一字符標記爲特殊字符、文本、反向引用或八進制轉義符,如,」n」匹配字符」n」,」\n」匹配換行符,序列」\\」匹配」\」,」\(「匹配」(「;
9. 「\w」:匹配字母或數字或下劃線,任意一個字母或數字或下劃線,即A~Z,a~z,0~9,_中任意一個;
10. 「\W」:匹配任意不是字母、數字、下劃線的字符;
11. 「\s」:匹配任意的空白符,包括空格、製表符、換頁符等空白字符的其中任意一個,與」[ \f\n\r\t\v]」等效;
12. 「\S」:匹配任意不是空白符的字符,與」[^\f\n\r\t\v]」等效;
13. 「\d」:匹配數字,任意一個數字,0~9中的任意一個,等效於」[0-9]」;
14. 「\D」:匹配任意非數字的字符,等效於」[^0-9]」;
15. 「\b」: 匹配一個字邊界,即字與空格間的位置,也就是單詞和空格之間的位置,不匹配任何字符,如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er";
16. 「\B」: 非字邊界匹配,"er\B"匹配"verb"中的"er",但不匹配"never"中的"er";
17. 「\f」:匹配一個換頁符,等價於」\x0c」和」\cL」;
18. 「\n」:匹配一個換行符,等價於」\x0a」和」\cJ」;
19. 「\r」:匹配一個回車符,等價於」\x0d」和」\cM」;
20. 「\t」:匹配一個製表符,等價於」\x09」和」\cI」;
21. 「\v」:匹配一個垂直製表符,等價於」\x0b」和」\cK」;
22. 「\cx」:匹配」x」指示的控制字符,如,\cM匹配Control-M或回車符,」x」的值必須在」A-Z」或」a-z」之間,若是不是這樣,則假定c就是"c"字符自己;
23. 「{n}」:」n」是非負整數,正好匹配n次,如,"o{2}"與"Bob"中的"o"不匹配,但與"food"中的兩個"o"匹配;
24. 「{n,}」:」n」是非負整數,至少匹配n次,如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的全部」o」,"o{1,}"等效於"o+","o{0,}"等效於"o*";
25. 「{n,m}」:」n」和」m」是非負整數,其中n<=m,匹配至少n次,至多m次,如,"o{1,3}"匹配"fooooood"中的頭三個o,'o{0,1}'等效於'o?',注意,不能將空格插入逗號和數字之間;如」ba{1,3}」能夠匹配」ba」或」baa」或」baaa」;
26. 「x|y」:匹配」x」或」y」,如,」z|food」匹配"z"或"food";」(z|f)ood」匹配"zood"或"food";
27. 「[xyz]」:字符集,匹配包含的任一字符,如,"[abc]"匹配"plain"中的"a";
28. 「[^xyz]」:反向字符集,匹配未包含的任何字符,匹配除了」xyz」之外的任意字符,如,"[^abc]"匹配"plain"中的"p";
29. 「[a-z]」:字符範圍,匹配指定範圍內的任何字符,如,"[a-z]"匹配"a"到"z"範圍內的任何小寫字母;
30. 「[^a-z]」:反向範圍字符,匹配不在指定的範圍內的任何字符,如,"[^a-z]"匹配任何不在"a"到"z"範圍內的任何字符;
31. 「( )」:將」(「和」)」之間的表達式定義爲」組」group,而且將匹配這個表達式的字符保存到一個臨時區域,一個正則表達式中最多能夠保存9個,它們能夠用」\1」到」\9」的符號來引用;
32. 「(pattern)」:匹配pattern並捕獲該匹配的子表達式,可使用$0…$9屬性從結果」匹配」集合中檢索捕獲的匹配;
33. 「(?:pattern)」:匹配pattern但不捕獲該匹配的子表達式,即它是一個非捕獲匹配,不存儲供之後使用的匹配,這對於用」or」字符」 (|)」組合模式部件的狀況頗有用, 如,」industr(?:y|ies)」是比」industry|industries」更簡略的表達式;
34. 「(?=pattern)」: 非獲取匹配,正向確定預查,在任何匹配pattern的字符串開始處匹配查找字符串,該匹配不須要獲取供之後使用。如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。預查不消耗字符,也就是說,在一個匹配發生後,在最後一次匹配以後當即開始下一次匹配的搜索,而不是從包含預查的字符以後開始;
35. 「(?!pattern)」: 非獲取匹配,正向否認預查,在任何不匹配pattern的字符串開始處匹配查找字符串,該匹配不須要獲取供之後使用。如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows";
要匹配某些特殊字符,需在此特殊字符前面加上」\」,如要匹配字符」^」、」$」、」()」、」[]」、」{}」、」.」、」?」、」+」、」*」、」|」,需使用」 \^」、」 \$」、」 \ (「、」\)」、」 \ [「、」\]」、」 \{「、」\}」、」 \.」、」 \?」、」 \+」、」 \*」、」 \|」。
在C++/C++11中,GCC版本是4.9.0及以上,VS版本爲VS2013及以上時,會有regex頭文件,此頭文件中會有regex_match、regex_search、regex_replace等函數可供調用,如下是測試代碼:
#include "regex.hpp" #include <regex> #include <string> #include <vector> #include <iostream> int test_regex_match() { std::string pattern{ "\\d{3}-\\d{8}|\\d{4}-\\d{7}" }; // fixed telephone std::regex re(pattern); std::vector<std::string> str{ "010-12345678", "0319-9876543", "021-123456789"}; /* std::regex_match: 判斷一個正則表達式(參數re)是否匹配整個字符序列str,它主要用於驗證文本 注意,這個正則表達式必須匹配被分析串的所有,不然返回false;若是整個序列被成功匹配,返回true */ for (auto tmp : str) { bool ret = std::regex_match(tmp, re); if (ret) fprintf(stderr, "%s, can match\n", tmp.c_str()); else fprintf(stderr, "%s, can not match\n", tmp.c_str()); } return 0; } int test_regex_search() { std::string pattern{ "http|hppts://\\w*$" }; // url std::regex re(pattern); std::vector<std::string> str{ "http://blog.csdn.net/fengbingchun", "https://github.com/fengbingchun", "abcd://124.456", "abcd https://github.com/fengbingchun 123" }; /* std::regex_search: 相似於regex_match,但它不要求整個字符序列徹底匹配 能夠用regex_search來查找輸入中的一個子序列,該子序列匹配正則表達式re */ for (auto tmp : str) { bool ret = std::regex_search(tmp, re); if (ret) fprintf(stderr, "%s, can search\n", tmp.c_str()); else fprintf(stderr, "%s, can not search\n", tmp.c_str()); } return 0; } int test_regex_search2() { std::string pattern{ "[a-zA-z]+://[^\\s]*" }; // url std::regex re(pattern); std::string str{ "my csdn blog addr is: http://blog.csdn.net/fengbingchun , my github addr is: https://github.com/fengbingchun " }; std::smatch results; while (std::regex_search(str, results, re)) { for (auto x : results) std::cout << x << " "; std::cout << std::endl; str = results.suffix().str(); } return 0; } int test_regex_replace() { std::string pattern{ "\\d{18}|\\d{17}X" }; // id card std::regex re(pattern); std::vector<std::string> str{ "123456789012345678", "abcd123456789012345678efgh", "abcdefbg", "12345678901234567X" }; std::string fmt{ "********" }; /* std::regex_replace: 在整個字符序列中查找正則表達式re的全部匹配 這個算法每次成功匹配後,就根據參數fmt對匹配字符串進行替換 */ for (auto tmp : str) { std::string ret = std::regex_replace(tmp, re, fmt); fprintf(stderr, "src: %s, dst: %s\n", tmp.c_str(), ret.c_str()); } return 0; } int test_regex_replace2() { // reference: http://www.cplusplus.com/reference/regex/regex_replace/ std::string s("there is a subsequence in the string\n"); std::regex e("\\b(sub)([^ ]*)"); // matches words beginning by "sub" // using string/c-string (3) version: std::cout << std::regex_replace(s, e, "sub-$2"); // using range/c-string (6) version: std::string result; std::regex_replace(std::back_inserter(result), s.begin(), s.end(), e, "$2"); std::cout << result; // with flags: std::cout << std::regex_replace(s, e, "$1 and $2", std::regex_constants::format_no_copy); std::cout << std::endl; return 0; }