任何複雜的正則表達式都是由簡單的子表達式組成的,要想寫出複雜的正則來,一方面須要有化繁爲簡的功底,另一方面,咱們須要從正則引擎的角度去思考問題。關於正則引擎的原理,推薦《Mastering Regular Expression》中文名叫《精通正則表達式》。挺不錯的一本書。html
OK,先肯定咱們要解決的問題——從一段Html文本中找出特定id的標籤的innerHTML。正則表達式
這裏面最大的難點就是,Html標籤是支持嵌套的,怎麼可以找到指定標籤相對應的閉合標籤呢?spa
咱們能夠這樣想,先匹配最前面的起始標籤,假設是div吧(<div),接着一旦遇到嵌套div,就「壓入堆棧」,後面若是遇到div閉合標籤了,就「彈出堆棧」。若是遇到閉合標籤的時候,堆棧裏面已經沒有東西了,那麼匹配結束,此結束標籤爲正確的閉合標籤。code
我之因此可以這樣去思考,是由於我瞭解過正則的特性,我知道正則中的平衡組可以實現我剛纔說的「堆棧」操做。因此,若是咱們要編寫複雜正則表達式,須要對正則的一些高級特性至少有所瞭解,這樣咱們思考問題纔有個方向。htm
================================io
匹配任意閉合HTML標籤的正則表達式:ast
<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>
若是隻想匹配div標籤,能夠使用下面的正則表達式:class
<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>
是的,你能夠把div修改爲任意你想要匹配的HTML標籤原理
若是想同時匹配多個HTML標籤,能夠使用下面的正則表達式:im
<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>
你還能夠繼續添加更多要匹配的標籤
若是想匹配包含ID的標籤,能夠使用下面的正則表達式:
<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)
這個正則匹配任意id爲footer的HTML標籤
本文不徹底轉載了http://www.imkevinyang.com/2009/07/使用正則表達式匹配嵌套html標籤.html的內容