正則表達式引擎執行原理——從未如此清晰！

時間 2020-02-20

原文原文鏈接

目前愈來愈多的網站、編輯器、編程語言都已支持一種叫「正則表達式」的字符串查找「公式」，有過編程經驗的同窗都應該瞭解正則表達式（Regular Expression 簡寫regex）是什麼東西，它是一種字符串匹配的模式（pattern），更像是一種邏輯公式。html

使用正則表達式去匹配字符串Hello World 中的 Hello
僞代碼：/Hello/, "Hello World"
輸出：Hello

如何寫好一篇關於 正則表達式 的文章，我思考了一週的時間，從未有一篇文章能讓豬哥如此費神。python

由於我以爲正則表達式 ：難記憶、難描述、廣而深且不受重視，有人說正則表達式既好寫也難寫！面試

豬哥但願你們能瞭解到正則的知識點其實很是很是多，尤爲是正則引擎執行原理以及正則優化，這算是正則表達式的進階知識點，面試中也可能會被問到。
正則表達式

1、起源與發展

咱們在學習一門技術的時候有必要了解其起源與發展過程，這對咱們去理解技術自己有必定的幫助！算法

20世紀40年代：正則表達式最初的想法來自兩位神經學家：沃爾特·皮茨與麥卡洛克，他們研究出了一種用數學方式來描述神經網絡的模型。編程

1956年：一位名叫Stephen Kleene的數學科學家發表了一篇題目是《神經網事件的表示法》的論文，利用稱之爲正則集合的數學符號來描述此模型，引入了正則表達式的概念。正則表達式被做爲用來描述其稱之爲「正則集的代數」的一種表達式，於是採用了「正則表達式」這個術語。緩存

1968年：C語言之父、UNIX之父肯·湯普森把這個「正則表達式」的理論成果用於作一些搜索算法的研究，他描述了一種正則表達式的編譯器，因而出現了應該算是最先的正則表達式的編譯器qed（這也就成爲後來的grep編輯器）。微信

Unix使用正則以後，正則表達式不斷的發展壯大，而後大規模應用於各類領域，根據這些領域各自的條件須要，又發展出了許多版本的正則表達式，出現了許多的分支。咱們把這些分支叫作「流派」。網絡

1987年：Perl語言誕生了，它綜合了其餘的語言，用正則表達式做爲基礎，開創了一個新的流派，Perl流派。以後不少編程語言如：Python、Java、Ruby、.Net、PHP等等在設計正則式支持的時候都參考Perl正則表達式。
編程語言

到這裏咱們也就知道爲何衆多編程語言的正則表達式基本同樣，由於他們都師從Perl。

注：Perl語言是一種擅長處理文本的語言，但因晦澀語法和古怪符號不利於理解和記憶致使不少開發者並不喜歡。

完整的正則表達式由兩種字符構成：特殊字符（元字符）和普通字符。

ps：元字符表示正則表達式功能的最小單位，如 * ^ $ \d 等等

關於語法部分豬哥並不想過多的講解，給你們作一個詳細的概括整理，供你們往後快速查找吧！

若是想系統學習正則表達式的語法部分，豬哥推薦 菜鳥教程： https://www.runoob.com/regexp...

匹配原理是豬哥想要重點講解的部分，也但願同窗們能夠認真瞭解這部分的內容。

不少人以爲開車不必瞭解車的構造原理，可是咱們學編程的還真的須要瞭解原理。

由於瞭解原理，你才能調優，這每每也是初級工程師與中高級工程師之間的差異點之一！

正則表達是的執行，是由正則表達引擎編譯執行的，大體的執行流程豬哥也花了一個流程圖給你們看看。

這裏給你們提一點就是：預編譯（pre-use compile）

豬哥建議你們在生產環境中使用預編譯功能，爲何呢？

以Python語言內置re模塊舉例：

經過re.compile(pattern)預編譯返回Pattern對象，在後面代碼中能夠直接引用。
經過re.match(pattern, text)即用編譯，雖然也會有緩存Pattern對象，可是每次使用都須要去緩存中取出，比預編譯多一步取操做。

豬哥也經過實際測試來 驗證預編譯確實比即用編譯要快！

pattern = r'http:\/\/(?:.?\w+)+'
text = '<a href="http://www.xxx.com">xxx.com</a>'

既然正則表達式由執行引擎執行，那咱們就來說講正則表達式的引擎吧，這一塊是重點，但願你們仔細看看，弄懂了理解了才行！

正則引擎主要能夠分爲基本不一樣的兩大類：

ps：固然還有一種引擎爲：POSIX NFA，這是根據NFA引擎出的規範版本，但由於使用較少因此咱們這裏也就不重點講解。

這裏須要和你們解釋下何爲肯定型、有窮、自動機這幾個名詞：

肯定型與非肯定型：假設有一個字符串（text=abc）須要匹配，在沒有編寫正則表達式的前提下，就直接能夠肯定字符匹配順序的就是肯定型，不能肯定字符匹配順序的則爲非肯定型。
有窮：有窮即表示有限的意思，這裏表示有限次數內能獲得結果。
自動機：自動機即是自動完成，在咱們設置好匹配規則後由引擎自動完成，不須要人爲干預！

根據上面的解釋咱們可得知DFA引擎和 NFA引擎的區別就在於：在沒有編寫正則表達式的前提下，是否能肯定字符執行順序！

DFA引擎執行原理：
爲了你們能很清楚的理解DFA引擎執行原理，豬哥製做了一個簡易的動態執行過程圖給你們看看

根據上面的動圖咱們能夠得出DFA引擎的一些特色：

NFA引擎執行原理：
豬哥一樣畫了一個簡易的NFA引擎執行過程圖方便你們理解

根據上面的動圖咱們能夠得出NFA引擎的一些特色：

文表達式主導：按照表達式的一部分執行，若是不匹配換其餘部分繼續匹配，直到表達式匹配完成。
會記錄某個位置：咱們看到當執行到(d|b)時，NFA引擎會記錄字符的位置（零寬度），而後選擇其中一個先匹配。
單個字符可能檢查屢次：咱們看到當執行到(d|b)時，比較d後發現不匹配，因而NFA引擎換表達式的另外一個分支b，同時文本位置回退，從新匹配字符'b'。這也是NFA引擎是非肯定型的緣由，同時帶來另外一個問題效率可能沒有DFA引擎高。
可實現反向引用等功能：由於具備回退這一步，因此能夠很容易的實現反向引用、環視等一些功能！