正則表達式 —— 回溯陷阱

時間 2020-06-22

原文原文鏈接

前幾天線上一個項目監控信息忽然報告異常，上到機器上後查看相關資源的使用狀況，發現 CPU 利用率將近 100%。經過 Java 自帶的線程 Dump 工具，咱們導出了出問題的堆棧信息。html

咱們能夠看到全部的堆棧都指向了一個名爲 validateUrl 的方法，這樣的報錯信息在堆棧中一共超過 100 處。經過排查代碼，咱們知道這個方法的主要功能是校驗 URL 是否合法。java

很奇怪，一個正則表達式怎麼會致使 CPU 利用率居高不下。爲了弄清楚復現問題，咱們將其中的關鍵代碼摘抄出來，作了個簡單的單元測試。web

public static void main(String[] args) { String badRegex = "^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\\\/])+$"; String bugUrl = "http://www.fapiao.com/dddp-web/pdf/download?request=6e7JGxxxxx4ILd-kExxxxxxxqJ4-CHLmqVnenXC692m74H38sdfdsazxcUmfcOH2fAfY1Vw__%5EDadIfJgiEf"; if (bugUrl.matches(badRegex)) { System.out.println("match!!"); } else { System.out.println("no match!!"); } }

當咱們運行上面這個例子的時候，經過資源監視器能夠看到有一個名爲 java 的進程 CPU 利用率直接飆升到了 91.4% 。正則表達式

看到這裏，咱們基本能夠推斷，這個正則表達式就是致使 CPU 利用率居高不下的兇手！算法

因而，咱們將排錯的重點放在了那個正則表達式上：api

^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\/])+$

這個正則表達式看起來沒什麼問題，能夠分爲三個部分：markdown

第一部分匹配 http 和 https 協議，第二部分匹配 www. 字符，第三部分匹配許多字符。我看着這個表達式發呆了許久，也沒發現沒有什麼大的問題。工具

其實這裏致使 CPU 使用率高的關鍵緣由就是：Java 正則表達式使用的引擎實現是 NFA 自動機，這種正則表達式引擎在進行字符匹配時會發生回溯（backtracking）。而一旦發生回溯，那其消耗的時間就會變得很長，有多是幾分鐘，也有多是幾個小時，時間長短取決於回溯的次數和複雜度。性能

看到這裏，可能你們還不是很清楚什麼是回溯，還有點懵。不要緊，咱們一點點從正則表達式的原理開始講起。單元測試

正則表達式引擎

正則表達式是一個很方便的匹配符號，但要實現這麼複雜，功能如此強大的匹配語法，就必需要有一套算法來實現，而實現這套算法的東西就叫作正則表達式引擎。簡單地說，實現正則表達式引擎的有兩種方式：DFA 自動機（Deterministic Final Automata 肯定型有窮自動機）和 NFA 自動機（Non deterministic Finite Automaton 不肯定型有窮自動機）。

對於這兩種自動機，他們有各自的區別，這裏並不打算深刻將它們的原理。簡單地說，DFA 自動機的時間複雜度是線性的，更加穩定，可是功能有限。而 NFA 的時間複雜度比較不穩定，有時候很好，有時候不怎麼好，好很差取決於你寫的正則表達式。可是勝在 NFA 的功能更增強大，因此包括 Java 、.NET、Perl、Python、Ruby、PHP 等語言都使用了 NFA 去實現其正則表達式。

那 NFA 自動機究竟是怎麼進行匹配的呢？咱們如下面的字符和表達式來舉例說明。

text="Today is a nice day." regex="day"

要記住一個很重要的點，即：NFA 是以正則表達式爲基準去匹配的。也就是說，NFA 自動機會讀取正則表達式的一個一個字符，而後拿去和目標字符串匹配，匹配成功就換正則表達式的下一個字符，不然繼續和目標字符串的下一個字符比較。或許大家聽不太懂，沒事，接下來咱們以上面的例子一步步解析。

首先，拿到正則表達式的第一個匹配符：d。因而那去和字符串的字符進行比較，字符串的第一個字符是 T，不匹配，換下一個。第二個是 o，也不匹配，再換下一個。第三個是 d，匹配了，那麼就讀取正則表達式的第二個字符：a。
讀取到正則表達式的第二個匹配符：a。那着繼續和字符串的第四個字符 a 比較，又匹配了。那麼接着讀取正則表達式的第三個字符：y。
讀取到正則表達式的第三個匹配符：y。那着繼續和字符串的第五個字符 y 比較，又匹配了。嘗試讀取正則表達式的下一個字符，發現沒有了，那麼匹配結束。

上面這個匹配過程就是 NFA 自動機的匹配過程，但實際上的匹配過程會比這個複雜很是多，但其原理是不變的。

NFA自動機的回溯

瞭解了 NFA 是如何進行字符串匹配的，接下來咱們就能夠講講這篇文章的重點了：回溯。爲了更好地解釋回溯，咱們一樣如下面的例子來說解。

text="abbc" regex="ab{1,3}c"

上面的這個例子的目的比較簡單，匹配以 a 開頭，以 c 結尾，中間有 1-3 個 b 字符的字符串。NFA 對其解析的過程是這樣子的：

首先，讀取正則表達式第一個匹配符 a 和字符串第一個字符 a 比較，匹配了。因而讀取正則表達式第二個字符。
讀取正則表達式第二個匹配符 b{1,3} 和字符串的第二個字符 b 比較，匹配了。但由於 b{1,3} 表示 1-3 個 b 字符串，以及 NFA 自動機的貪婪特性（也就是說要儘量多地匹配），因此此時並不會再去讀取下一個正則表達式的匹配符，而是依舊使用 b{1,3} 和字符串的第三個字符 b 比較，發現仍是匹配。因而繼續使用 b{1,3} 和字符串的第四個字符 c 比較，發現不匹配了。此時就會發生回溯。
發生回溯是怎麼操做呢？發生回溯後，咱們已經讀取的字符串第四個字符 c 將被吐出去，指針回到第三個字符串的位置。以後，程序讀取正則表達式的下一個操做符 c，讀取當前指針的下一個字符 c 進行對比，發現匹配。因而讀取下一個操做符，但這裏已經結束了。

下面咱們回過頭來看看前面的那個校驗 URL 的正則表達式：

^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\/])+$

出現問題的 URL 是：

http://www.fapiao.com/dzfp-web/pdf/download?request=6e7JGm38jfjghVrv4ILd-kEn64HcUX4qL4a4qJ4-CHLmqVnenXC692m74H5oxkjgdsYazxcUmfcOH2fAfY1Vw__%5EDadIfJgiEf

咱們把這個正則表達式分爲三個部分：

第一部分：校驗協議。^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)。
第二部分：校驗域名。(([A-Za-z0-9-~]+).)+。
第三部分：校驗參數。([A-Za-z0-9-~\\/])+$。

咱們能夠發現正則表達式校驗協議 http:// 這部分是沒有問題的，可是在校驗 www.fapiao.com 的時候，其使用了 xxxx.這種方式去校驗。那麼其實匹配過程是這樣的：

匹配到 www.
匹配到 fapiao.
匹配到 com/dzfp-web/pdf/download?request=6e7JGm38jf.....，你會發現由於貪婪匹配的緣由，因此程序會一直讀後面的字符串進行匹配，最後發現沒有點號，因而就一個個字符回溯回去了。

這是這個正則表達式存在的第一個問題。

另一個問題是在正則表達式的第三部分，咱們發現出現問題的 URL 是有下劃線（_）和百分號（%）的，可是對應第三部分的正則表達式裏面卻沒有。這樣就會致使前面匹配了一長串的字符以後，發現不匹配，最後回溯回去。

這是這個正則表達式存在的第二個問題。

解決方案

明白了回溯是致使問題的緣由以後，其實就是減小這種回溯，你會發現若是我在第三部分加上下劃線和百分號以後，程序就正常了。

public static void main(String[] args) { String badRegex = "^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~_%\\\\/])+$"; String bugUrl = "http://www.fapiao.com/dddp-web/pdf/download?request=6e7JGxxxxx4ILd-kExxxxxxxqJ4-CHLmqVnenXC692m74H38sdfdsazxcUmfcOH2fAfY1Vw__%5EDadIfJgiEf"; if (bugUrl.matches(badRegex)) { System.out.println("match!!"); } else { System.out.println("no match!!"); } }

運行上面的程序，馬上就會打印出match!!。

但這是不夠的，若是之後還有其餘 URL 包含了亂七八糟的字符呢，咱們難不成還再修改一遍。確定不現實嘛！

其實在正則表達式中有這麼三種模式：貪婪模式、懶惰模式、獨佔模式。

在關於數量的匹配中，有 + ? * {min,max} 四種兩次，若是隻是單獨使用，那麼它們就是貪婪模式。

若是在他們以後加多一個 ? 符號，那麼原先的貪婪模式就會變成懶惰模式，即儘量少地匹配。可是懶惰模式仍是會發生回溯現象的。例以下面這個例子：

text="abbc" regex="ab{1,3}?c"

正則表達式的第一個操做符 a 與字符串第一個字符 a 匹配，匹配成功。因而正則表達式的第二個操做符 b{1,3}? 和字符串第二個字符 b 匹配，匹配成功。由於最小匹配原則，因此拿正則表達式第三個操做符 c 與字符串第三個字符 b 匹配，發現不匹配。因而回溯回去，拿正則表達式第二個操做符 b{1,3}? 和字符串第三個字符 b 匹配，匹配成功。因而再拿正則表達式第三個操做符 c 與字符串第四個字符 c 匹配，匹配成功。因而結束。

若是在他們以後加多一個 + 符號，那麼原先的貪婪模式就會變成獨佔模式，即儘量多地匹配，可是不回溯。

因而乎，若是要完全解決問題，就要在保證功能的同時確保不發生回溯。我將上面校驗 URL 的正則表達式的第二部分後面加多了個 + 號，即變成這樣：

^([hH][tT]{2}[pP]:\/\/|[hH][tT]{2}[pP][sS]:\/\/) (([A-Za-z0-9-~]+).)++ --->>> （這裏加了個+號） ([A-Za-z0-9-~_%\\\/])+$

這樣以後，運行原有的程序就沒有問題了。

最後推薦一個網站，這個網站能夠檢查你寫的正則表達式和對應的字符串匹配時會不會有問題。

Online regex tester and debugger: PHP, PCRE, Python, Golang and JavaScript

例如我本文中存在問題的那個 URL 使用該網站檢查後會提示：catastrophic backgracking（災難性回溯）。

當你點擊左下角的「regex debugger」時，它會告訴你一共通過多少步檢查完畢，而且會將全部步驟都列出來，並標明發生回溯的位置。

本文中的這個正則表達式在進行了 11 萬步嘗試以後，自動中止了。這說明這個正則表達式確實存在問題，須要改進。

可是當我用咱們修改過的正則表達式進行測試，即下面這個正則表達式。

^([hH][tT]{2}[pP]:\/\/|[hH][tT]{2}[pP][sS]:\/\/)(([A-Za-z0-9-~]+).)++([A-Za-z0-9-~\\\/])+$

工具提示只用了 58 步就完成了檢查。

一個字符的差異，性能就差距了好幾萬倍。

結尾

一個小小的正則表達式居然可以把 CPU 拖垮，也是很神奇了。這也給平時寫程序的咱們一個警醒，遇到正則表達式的時候要注意貪婪模式和回溯問題，不然咱們每寫的一個表達式都是一個雷。

經過查閱網上資料，我發現深圳阿里中心 LAZADA 的同窗也在 17 年遇到了這個問題。他們一樣也是在測試環境沒有發現問題，可是一到線上的時候就發生了 CPU 100% 的問題，他們遇到的問題幾乎跟咱們的如出一轍。有興趣的朋友能夠點擊閱讀原文查看他們後期總結的文章：一個由正則表達式引起的血案 - 明志健致遠 - 博客園

雖然把這篇文章寫完了，可是關於 NFA 自動機的原理方面，特別是關於懶惰模式、獨佔模式的解釋方面仍是沒有解釋得足夠深刻。由於 NFA 自動機確實不是那麼容易理解，因此在這方面還須要不斷學習增強。歡迎有懂行的朋友來學習交流，互相促進。

轉載自：https://www.cnblogs.com/chanshuyi/p/9197164.html