正則表達式優化

時間 2019-11-19

原文原文鏈接

這裏說的正則表達式優化，主要是針對目前經常使用的NFA模式正則表達式，javascript

從上面例子，咱們能夠推斷出，影響NFA類正則表達式java

（常見語言：GNU Emacs,Java,ergp,less,more,.NET語言,
PCRE library,Perl,PHP,Python,Ruby,sed,vi )正則表達式

其實主要是它的「回溯」，減小「回溯」次數（減小循環查找同一個字符次數），是提升性能的主要方法。咱們來看個例子：性能優化

源字符串：<script type="text/javascript">adsfadfsdasfsdafdsfsadfsa</script>less

匹配要求，匹配<script….>….</script>標籤裏面全部內容，包括改標籤工具

常見寫法(1)，由於<script後面可能出現字符、空白、特殊符號等，還有標籤裏面也可能出現各類js代碼。性能

咱們簡單方法是：測試

正則表達式：<script.*?> .*? </script> 優化

(測試工具使用了：regexBuddy)
 
總共花費115步，回溯了：48次。 由於咱們使用」.」字符，匹配默認狀況下除了\n以外全部字符。
方法（2），咱們分析特色發現，<script…>後面，應該是除了」>」以外均可以字符，而後一對<script>標籤裏面js內容。

能夠定義爲除了」<」以外。（這裏面我只是舉例說明優化方法，實際網頁中script標籤裏面，常見都會出現有」<」字符了）

正則表達式：<script[^?>]+> [^<]+ </script>
 
19步，0次回溯！ ，步驟只有原先的15%左右，性能幾倍的提高了！