JavaScript 的正則也有單行模式了

正則表達式最先是由 Ken Thompson 於 1970 年在他改進過的 QED 編輯器裏實現的,正則裏最簡單的元字符 「.」 在當時所匹配的就是除換行符外的任意字符:git

"." is a regular expression which matches any character except <nl>.github

上面這句話出自 QED 在 1970 年的官方文檔,這多是史上第一份正則文檔。正則表達式

爲何要這麼規定?是由於 QED 是以行爲單位來編輯文件的,並且行尾的換行符也算在這一行的內容裏。好比你想把一段代碼中全部的單行註釋刪掉,在 QED 裏能夠用下面這句命令: express

1,$s#//.*##

若是 「.」 能匹配到換行符,那麼換行符也會被刪除,會致使這些行和它的下一行合併,這一般都不是咱們想要的結果,因此,「.」 在最初發明時被設計成了不能匹配換行符。雖然如今的操做系統上已經沒有 QED 命令讓咱們測試了,但咱們還有 VIM,VIM 裏的 「.」 也同樣不能匹配換行符,由於一樣的緣由。編程

不像在 Node 中,讀取文件一般是一股腦讀完整個文件,Perl 繼承了衆多 Linux 命令按行讀取文件的傳統,像這樣:編程語言

while (<>) {print $_}

$_ 的末尾也有換行符,因此 Perl 也就很天然的繼承了 QED 的 「.」 不匹配換行符的規定。但 Perl 畢竟是門編程語言,而不是編輯器,它的正則要匹配的對象不僅僅會是單行文本,還多是多行文本,所以在它的正則中,「.」 有跨行匹配的需求,所以 Perl 發明了正則的單行模式 /s,即讓 「.」 也能匹配換行符。編輯器

Perl 中用來打開單行模式的 /s 修飾符的官方描述是 「Treat the string as single line」,這個 「single line」 要這麼理解:「.」 在普通模式下只能匹配行內字符,不能跨行;而在單行模式下,Perl 會僞裝把多行字符串當作一行,把其中的換行符看作是行內字符,因此 「.」 也就能匹配它們了。更形象點說,就是把下面的三行文本測試

1
2
3

當作 "1\n2\n3\n" 一行文本,單行模式就是這個意思。spa

但要命的是,由於一樣的緣由(字符串變量能夠包含多行文本),Perl 還發明瞭 /m 修飾符,即多行模式,官方描述是 「Treat the string as multiple lines」,這個模式 JavaScript 的正則裏自古也有,這裏這個「多行」的意思是說:^ 和 $ 元字符默認不會匹配一個字符串中間的那些換行符先後的位置,即認爲字符串永遠只有一行,打開多行模式後就能匹配了。操作系統

也就是說,單行模式和多行模式是針對不一樣的元字符的,剛接觸正則的人都會被「單行模式」和「多行模式」這兩個看似是相對應的概念,實則毫無關聯的名詞給搞暈。

後來,Ruby 的做者可能以爲「單行模式」這個正則術語起的很差,特例獨行把讓 「.」 匹配換行符這一模式稱之爲「多行模式」,即讓 .* 之類的正則可以匹配多行了,因此也徹底講得通,修飾符也用了 /m(Ruby 中默認會開啓 Perl 中的「多行模式」,因此 /m 沒被佔用),這真是雪上加霜,更亂了。 

再後來,Python 做者可能也以爲應該避免「單行模式」這個叫法,因而起了個新的名字 「dotall」,也就是讓 dot 能匹配全部字符的意思,很好的名字,再後來 Java 也使用了這個名字。

上面回顧了一下歷史,解釋了下單行模式的由來以及說明了下單行模式這個名字起得很差。V8 最近剛剛實現了一個 stage 3 的 ES 提案 https://github.com/mathiasbynens/es-regexp-dotall-flag,這個提案爲 JavaScript 的正則引入了 /s 修飾符和 dotAll 屬性,dotAll 屬性是學了 Python 和 Java,/s 修飾符是繼承了 Perl 的,這裏也不必發明一個新的修飾符好比 /d,只會讓事情更復雜。/s 在 JavaScript 的具體效果是讓 「.」 能匹配之前不能匹配的四個行終止符:\n(換行)、\r(回車)、\u2028(行分隔符)、\u2029(段落分隔符):

/foo/s.dotAll // true
/^.{4}$/s.test("\n\r\u2028\u2029") // true

其實就是個很簡單的東西,但可能一些沒有接觸過 JavaScript 之外的正則的同窗到時候學到這個新的模式後會產生困惑,這裏再澄清一下:多行模式控制的是 ^ 和 $ 的表現,單行模式控制的是 「.」 的表現,二者沒有直接關係。

然而當初引入單行模式和多行模式這兩個易混淆概念的 Perl 語言,已經在 Perl 6 中徹底刪除了這兩個模式:「.」 號默認就匹配換行符,\N 能夠匹配換行符除外的任意字符;^ 和 $ 始終匹配字符串的首尾,而新引入了 ^^ 和 $$ 兩個元字符來匹配行的首尾。

過去咱們經常使用的單行模式的替代品 [^] 或者 [\s\S] 也不是徹底沒有用了,好比在一些使用 JavaScript 正則的編輯器裏(VS Code、Atom),不太可能給你提供開啓單行模式的界面。不過提及編輯器裏的正則功能,用 JavaScript 實現的編輯器的正則功能仍是太弱了,好比不能在正則自身內部開啓某些模式,好比要是在 Sublime(使用 Python 正則)裏的話,在正則內部使用 (?s) 就能開啓 dotall 模式,好比能夠用 (?s)/\*.+?\*/ 匹配到全部的多行註釋。

相關文章
相關標籤/搜索