正則速記法

時間 2019-11-06

原文原文鏈接

給你一篇文章，如何挑選出你想要的字符串呢？你能夠從左到右從上到下，一個一個字符讀取出來，寫一大堆if作判斷。這樣太麻煩了，正則就是將以上過程抽象出來，用一些特定符號就能表示出大部分規則javascript

對大部分人來講，正則主要是難記，其實只要對正則符號分類記憶，就會發現核心概念其實特別簡單css

注：本文會假設你至少看過一遍正則的文檔，若是沒看過，能夠看mdn（有中文翻譯），若是以爲mdn排版亂，推薦去https://devdocs.io/javascript/global_objects/regexp學習。本文所使用語言爲javascript java

元字符

/a/中的a就是一個元字符，一個元字符匹配一個實體字符，這裏的「a」沒有特殊含義，就匹配一個英文a less

像/\d/就匹配0到9的全部數字，若是兩個連寫/\d\d/就能夠匹配10到99的全部數字函數

/./能夠匹配任何字符性能

集合

假若有一串字符串'0123456789'，我只想匹配其中的'3','6', '9'，這時能夠放在集合中/[369]/ 學習

執行後會發現只有3被匹配到，是由於集合中無論寫多少東西都表明一個元字符，集合也是一種元字符測試

你可能見過這樣都集合/[0-9a-zA-Z_]/它表明匹配全部數字，字母和下劃線，它與元字符/\w/的效果是同樣的，集合更靈活\w更方便翻譯

排除型集合

/[^0-9]/除了數字都匹配（我喜歡叫它否認集合）code

或（多選）

假設我有一大堆書單，我但願從中匹配出naroto和one piece，那麼能夠這樣寫/naroto|one pice/ 豎線表明或，a或b，你也能夠寫多個a|b|c|d，你固然能夠寫出0|1|2...|9來匹配全部數字。但要注意和集合的區別，集合是一個元字符，不能匹配單詞，|兩邊能夠是多個元字符

分組

我如今有一堆文件，我但願匹配出後綴是.css和.less的文件，你能夠很天然的寫出/.css|.less/這樣的代碼。其實還有一個簡便寫法/.(c|le)ss/，分組能夠將若干個元字符放在同一個做用域中作處理，經過分組咱們能夠寫出更簡練的代碼

分組還有一個特殊的用法，思考如何匹配'asd_asd_asd_asd_asd'這種字符串?

答案是/(asd)(_\1)+/，\1是個很是特殊的元字符，表明重複使用第一個分組的匹配結果，\2就表明第二個，以此類推，+加號表示重複一到屢次（這個後面會講），須要注意的是計數從1開始，\0表明另外的意思（請看文檔）

量詞

一長串字符中我只想匹配連續的數字，但/\d/只會匹配一個，這時候可使用量詞/\d{n,}/，n寫幾就是幾到多，好比{1,}就是1到多。{n}這種寫法表示n個相連，匹配2333能夠寫成/23{3}/

還有幾個簡寫的量詞
+表明1到多，等於{1,}
*表明0到多，等於{0,}
?表明0或1個，等於{0,1}

貪婪模式和非貪婪模式

量詞有個尷尬的地方，好比用/.*a/去匹配'123a123a'，原本但願獲得'123a'，實際卻獲得'123a123a'。這是由於任何字符都知足/./加上量詞會致使從頭匹配到尾，但由於咱們還有其餘元字符，因此這時正則引擎會回溯，將已經匹配的結果從後往前一個個拿出來，與剩下的元字符相匹配。
這種模式叫貪婪模式，它可能會產生預期以外的結果和沒必要要的性能浪費

解決方案是使用非貪婪模式，在量詞後面加?問號能夠獲得最小結果，如今使用/.*?a/去匹配就能夠獲得'123a'了。任何量詞後均可以使用非貪婪模式

環視

x(?=y) 這個功能有不少種翻譯，好比零寬斷言，我我的感受比較準確的是「正向確定環視」
x(?!y)正向否認環視

x表明元字符，y也表明元字符，x(?=y)的意思是緊接着y的x，好比'-1a--2b-'，使用/\d(?=a)/去匹配，會獲得1;/\d(?!a)/去匹配，會獲得2。

這功能怎麼用？舉個例子，有一段字符串'a(123)b'，我只想要括號內的內容，但不想要括號
我須要匹配到右括號左邊的位置，那麼我能夠寫成/(?=\))/(注意括號須要轉義)，我不想要左括號/[^(]/，我不關心括號內的內容/.*/，這時組合三個正則就變成了/[^(].*(?=\))/

實際上這個功能匹配的是位置，從匹配到的位置開始找元字符，因此你若是在環視後面加量詞是沒用的