如何寫出高效率的正則表達式

時間 2019-11-08

原文原文鏈接

正則表達式引擎(DFA/NFA)

NFA 是不肯定的有限自動機，也就是說在狀態的遷移過程當中，下一個狀態可能有好幾種可能，而對於 DFA 肯定有限自動機而言，下一個狀態只有一種可能。 DFA引擎由於不須要回溯，因此匹配快速，但不支持捕獲組，因此也就不支持反向引用和$number這種引用方式，目前使用DFA引擎的語言和工具主要有awk、egrep 和 lex。而NFA又基本上能夠分爲傳統型NFA和POSIX NFA， POSIX NFA主要指符合POSIX標準的NFA引擎，它的特色主要是提供longest-leftmost匹配，也就是在找到最左側最長匹配以前，它將繼續回溯。同DFA同樣，非貪婪模式或者說忽略優先量詞對於POSIX NFA一樣是沒有意義的。正則表達式

Java使用的是傳統型NFA引擎,因此咱們接下來討論的內容也是基於傳統型NFA引擎的bash

效率問題

由於 DFA 在匹配過程當中是跟正則表達式無關的，因此接下來效率提高方面的討論只針對 NFA。匹配失敗發生回朔的次數是一個指標，而爲何會發生回朔呢? 由於基本的元字符是貪婪的 (*, +)，由於有選擇性的匹配 (|), 因而在匹配過程當中每一次這樣的選擇，都會記錄一個回朔點，在匹配失敗時，就會回朔到以前一個回朔點，繼續匹配，也就是相似於棧的機制，後進先出。工具

學會使用工具

在這裏安利一個RegexBuddy工具，使用它能夠很簡單的在各類語言環境下測試、使用、debug正則表達式，不要使用網頁版本的正則表達式匹配工具，那些大多數是匹配js的，有些甚至連js都匹配不許確。oop

開始優化正則表達式

使用字符組代替分支條件

匹配abcd字符請使用[a-d]而不是使用a|b|c|d,前者匹配一次便可匹配須要的字符，然後者須要進行匹配四次(由於須要進行回溯)性能

儘可能使用錨點優化(^或者$)

若是知道一個字符串開頭是什麼，儘可能使用^,若是知道結尾是什麼儘可能使用只可能從字符串默認倒數的第五個字符開始匹配，這樣能夠略過不少字符，達到優化的效果。測試

儘可能使用長度優化

若是你知道一個字符串的長度不操做多少，或者這個字符串是定長的，那麼請必定加上長度匹配，好比\d{11}匹配11位的數字，\d{4,8}匹配4到8位的數字，在匹配的時候就不會匹配小於4位的數字。優化

使用佔有優先量詞和固化分組

佔有優先量詞：spa

?+ 	*+ 	++ 	{m,n}+

複製代碼

佔有優先量詞與匹配優先量詞很類似,只是它們歷來不會交還已經匹配的字符。 固化分組：debug

(?>...)       ...是指具體內容
複製代碼

固化分組的內容與正常的匹配並沒有區別，只是當匹配完括號中的內容後，括號中的備用狀態會所有捨去。code

是否使用非捕獲型括號

在上一篇文章正則表達式的基本使用中指出了使用非捕獲型括號有利於性能提高，由於你不在須要捕獲文本的開銷,可是這也不是必然的，好比(000|999)這個錨結尾優化，可是大多數時候非捕獲型括號都是有益的，因此這個使用就須要本身權衡。

儘量少的編譯

正則表達式的編輯也是須要耗費時間的，不要每次在循環內從新編輯正則表達式

不要濫用括號

只有在須要的時候才使用括號，要否則括號會阻止某些優化措施，好比.*請不要用成(.)*

不要濫用字符組

字符組使用時有好處，可是不要濫用呀,並不須要用到字符組提供的多字符匹配功能的時候請不要使用字符組

像寫代碼同樣優化

這個是什麼意思？其實就是儘可能將常量字符串提取出來,將共同的部分提取出來

別寫太長的正則表達式

太長的正則表達式效率不必定高，並且後期很差維護，因此儘可能不要寫太長的表達式，就算有長的也儘可能拆分紅比較短的正則表達式，能用字符串處理解決的就儘可能不用正則表達式。

使用環視模擬開頭符識別

若是正則表達式爲 Jan|Feb|Dec，對應的就是(?=[JFMASOND])(?:Jan|Feb|Dec)。開頭的[JFMASOND]表明了英文中月份單詞可能的開始字母。

將盡量多的多選分支放在前面

多選分支下儘量將出現機率比較大的表達式放在前面，好比匹配主機名的表達式中(?:aero|biz|com|cooph|...)的效率沒有(?:com|net|edu|org|...)的效率高

消除循環

若是你寫了一個較複雜的表達式,可使用消除循環來提升效率,消除循環的經常使用解法:

opening normal* (special normal\*)* closing
複製代碼

須要注意的幾點 ** 1. special 部分和normal部分匹配的開頭不能重合 ** ** 2. normal 部分必須匹配至少一個字符 ** ** 3. special部分必須是固話的,部分匹配的文本不能由該部分的屢次迭代完成,好比(abc*)重要比.*好一些。*

是否必須使用正則表達式?

有時候正則表達式確實能爲咱們帶來便捷，可是濫用正則表達式的後果一樣是很是嚴重的,可能會致使死循環，讓你程序的效率顯著的降低，因此若是能用字符串解決的問題儘可能不使用正則表達式，若是使用正則表達式請儘可能多測試，寫出高水平的正則表達式。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。