前幾天線上一個項目監控信息忽然報告異常,上到機器上後查看相關資源的使用狀況,發現 CPU 利用率將近 100%。經過 Java 自帶的線程 Dump 工具,咱們導出了出問題的堆棧信息。java
咱們能夠看到全部的堆棧都指向了一個名爲 validateUrl 的方法,這樣的報錯信息在堆棧中一共超過 100 處。經過排查代碼,咱們知道這個方法的主要功能是校驗 URL 是否合法。web
很奇怪,一個正則表達式怎麼會致使 CPU 利用率居高不下。爲了弄清楚復現問題,咱們將其中的關鍵代碼摘抄出來,作了個簡單的單元測試。正則表達式
`public` `static` `void` `main(String[] args) {`
`String badRegex =` `"^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\\\/])+$"``;`
`String bugUrl =` `"[http://www.fapiao.com/dddp-web/pdf/download?request=6e7JGxxxxx4ILd-kExxxxxxxqJ4-CHLmqVnenXC692m74H38sdfdsazxcUmfcOH2fAfY1Vw__%5EDadIfJgiEf](http://www.fapiao.com/dddp-web/pdf/download?request=6e7JGxxxxx4ILd-kExxxxxxxqJ4-CHLmqVnenXC692m74H38sdfdsazxcUmfcOH2fAfY1Vw__%5EDadIfJgiEf)"``;`
`if` `(bugUrl.matches(badRegex)) {`
`System.out.println(``"match!!"``);`
`}` `else` `{`
`System.out.println(``"no match!!"``);`
`}`
`}`
複製代碼
當咱們運行上面這個例子的時候,經過資源監視器能夠看到有一個名爲 java 的進程 CPU 利用率直接飆升到了 91.4% 。算法
看到這裏,咱們基本能夠推斷,這個正則表達式就是致使 CPU 利用率居高不下的兇手!api
因而,咱們將排錯的重點放在了那個正則表達式上:bash
`^([hH][tT]{2}[pP]:``//|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\/])+
複製代碼
這個正則表達式看起來沒什麼問題,能夠分爲三個部分:工具
第一部分匹配 http 和 https 協議,第二部分匹配 www. 字符,第三部分匹配許多字符。我看着這個表達式發呆了許久,也沒發現沒有什麼大的問題。單元測試
其實這裏致使 CPU 使用率高的關鍵緣由就是:Java 正則表達式使用的引擎實現是 NFA 自動機,這種正則表達式引擎在進行字符匹配時會發生回溯(backtracking)。而一旦發生回溯,那其消耗的時間就會變得很長,有多是幾分鐘,也有多是幾個小時,時間長短取決於回溯的次數和複雜度。測試
看到這裏,可能你們還不是很清楚什麼是回溯,還有點懵。不要緊,咱們一點點從正則表達式的原理開始講起。spa
正則表達式引擎
正則表達式是一個很方便的匹配符號,但要實現這麼複雜,功能如此強大的匹配語法,就必需要有一套算法來實現,而實現這套算法的東西就叫作正則表達式引擎。簡單地說,實現正則表達式引擎的有兩種方式:DFA 自動機(Deterministic Final Automata 肯定型有窮自動機)和 NFA 自動機(Non deterministic Finite Automaton 不肯定型有窮自動機)。
對於這兩種自動機,他們有各自的區別,這裏並不打算深刻將它們的原理。簡單地說,DFA 自動機的時間複雜度是線性的,更加穩定,可是功能有限。而 NFA 的時間複雜度比較不穩定,有時候很好,有時候不怎麼好,好很差取決於你寫的正則表達式。可是勝在 NFA 的功能更增強大,因此包括 Java 、.NET、Perl、Python、Ruby、PHP 等語言都使用了 NFA 去實現其正則表達式。
那 NFA 自動機究竟是怎麼進行匹配的呢?咱們如下面的字符和表達式來舉例說明。
`text=``"Today is a nice day."`
`regex=``"day"`
複製代碼
要記住一個很重要的點,即:NFA 是以正則表達式爲基準去匹配的。也就是說,NFA 自動機會讀取正則表達式的一個一個字符,而後拿去和目標字符串匹配,匹配成功就換正則表達式的下一個字符,不然繼續和目標字符串的下一個字符比較。或許大家聽不太懂,沒事,接下來咱們以上面的例子一步步解析。
上面這個匹配過程就是 NFA 自動機的匹配過程,但實際上的匹配過程會比這個複雜很是多,但其原理是不變的。
NFA自動機的回溯
瞭解了 NFA 是如何進行字符串匹配的,接下來咱們就能夠講講這篇文章的重點了:回溯。爲了更好地解釋回溯,咱們一樣如下面的例子來說解。
`text=``"abbc"`
`regex=``"ab{1,3}c"`
複製代碼
上面的這個例子的目的比較簡單,匹配以 a 開頭,以 c 結尾,中間有 1-3 個 b 字符的字符串。NFA 對其解析的過程是這樣子的:
下面咱們回過頭來看看前面的那個校驗 URL 的正則表達式:
`^([hH][tT]{``2``}[pP]:``//|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\/])+
複製代碼
出現問題的 URL 是:
`http:``//www.fapiao.com/dzfp-web/pdf/download?request=6e7JGm38jfjghVrv4ILd-kEn64HcUX4qL4a4qJ4-CHLmqVnenXC692m74H5oxkjgdsYazxcUmfcOH2fAfY1Vw__%5EDadIfJgiEf
複製代碼
咱們把這個正則表達式分爲三個部分:
^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)
。(([A-Za-z0-9-~]+).)+
。([A-Za-z0-9-~\\/])+$
。咱們能夠發現正則表達式校驗協議 http://
這部分是沒有問題的,可是在校驗 www.fapiao.com 的時候,其使用了 xxxx.
這種方式去校驗。那麼其實匹配過程是這樣的:
com/dzfp-web/pdf/download?request=6e7JGm38jf.....
,你會發現由於貪婪匹配的緣由,因此程序會一直讀後面的字符串進行匹配,最後發現沒有點號,因而就一個個字符回溯回去了。這是這個正則表達式存在的第一個問題。
另一個問題是在正則表達式的第三部分,咱們發現出現問題的 URL 是有下劃線(_)和百分號(%)的,可是對應第三部分的正則表達式裏面卻沒有。這樣就會致使前面匹配了一長串的字符以後,發現不匹配,最後回溯回去。
這是這個正則表達式存在的第二個問題。
解決方案
明白了回溯是致使問題的緣由以後,其實就是減小這種回溯,你會發現若是我在第三部分加上下劃線和百分號以後,程序就正常了。
`public` `static` `void` `main(String[] args) {`
`String badRegex =` `"^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~_%\\\\/])+$"``;`
`String bugUrl =` `"[http://www.fapiao.com/dddp-web/pdf/download?request=6e7JGxxxxx4ILd-kExxxxxxxqJ4-CHLmqVnenXC692m74H38sdfdsazxcUmfcOH2fAfY1Vw__%5EDadIfJgiEf](http://www.fapiao.com/dddp-web/pdf/download?request=6e7JGxxxxx4ILd-kExxxxxxxqJ4-CHLmqVnenXC692m74H38sdfdsazxcUmfcOH2fAfY1Vw__%5EDadIfJgiEf)"``;`
`if` `(bugUrl.matches(badRegex)) {`
`System.out.println(``"match!!"``);`
`}` `else` `{`
`System.out.println(``"no match!!"``);`
`}`
`}`
複製代碼
運行上面的程序,馬上就會打印出match!!
。
但這是不夠的,若是之後還有其餘 URL 包含了亂七八糟的字符呢,咱們難不成還再修改一遍。確定不現實嘛!
其實在正則表達式中有這麼三種模式:貪婪模式、懶惰模式、獨佔模式。
在關於數量的匹配中,有 + ? * {min,max}
四種兩次,若是隻是單獨使用,那麼它們就是貪婪模式。
若是在他們以後加多一個 ? 符號,那麼原先的貪婪模式就會變成懶惰模式,即儘量少地匹配。可是懶惰模式仍是會發生回溯現象的。例以下面這個例子:
`text=``"abbc"`
`regex=``"ab{1,3}?c"`
複製代碼
正則表達式的第一個操做符 a 與 字符串第一個字符 a 匹配,匹配成功。因而正則表達式的第二個操做符 b{1,3}? 和 字符串第二個字符 b 匹配,匹配成功。由於最小匹配原則,因此拿正則表達式第三個操做符 c 與字符串第三個字符 b 匹配,發現不匹配。因而回溯回去,拿正則表達式第二個操做符 b{1,3}? 和字符串第三個字符 b 匹配,匹配成功。因而再拿正則表達式第三個操做符 c 與字符串第四個字符 c 匹配,匹配成功。因而結束。
若是在他們以後加多一個 + 符號,那麼原先的貪婪模式就會變成獨佔模式,即儘量多地匹配,可是不回溯。
因而乎,若是要完全解決問題,就要在保證功能的同時確保不發生回溯。我將上面校驗 URL 的正則表達式的第二部分後面加多了個 + 號,即變成這樣:
`^([hH][tT]{``2``}[pP]:\/\/|[hH][tT]{``2``}[pP][sS]:\/\/)
`(([A-Za-z0-``9``-~]+).)++ --->>> (這裏加了個+號)`
`([A-Za-z0-``9``-~_%\\\/])+$`
複製代碼
這樣以後,運行原有的程序就沒有問題了。