正則匹配閉合HTML標籤(支持嵌套)

任何複雜的正則表達式都是由簡單的子表達式組成的,要想寫出複雜的正則來,一方面須要有化繁爲簡的功底,另一方面,咱們須要從正則引擎的角度去思考問題。關於正則引擎的原理,推薦《Mastering Regular Expression》中文名叫《精通正則表達式》。挺不錯的一本書。html

OK,先肯定咱們要解決的問題——從一段Html文本中找出特定id的標籤的innerHTML正則表達式

這裏面最大的難點就是,Html標籤是支持嵌套的,怎麼可以找到指定標籤相對應的閉合標籤呢?spa

咱們能夠這樣想,先匹配最前面的起始標籤,假設是div吧(<div),接着一旦遇到嵌套div,就「壓入堆棧」,後面若是遇到div閉合標籤了,就「彈出堆棧」。若是遇到閉合標籤的時候,堆棧裏面已經沒有東西了,那麼匹配結束,此結束標籤爲正確的閉合標籤code

我之因此可以這樣去思考,是由於我瞭解過正則的特性,我知道正則中的平衡組可以實現我剛纔說的「堆棧」操做。因此,若是咱們要編寫複雜正則表達式,須要對正則的一些高級特性至少有所瞭解,這樣咱們思考問題纔有個方向。htm

================================io

匹配任意閉合HTML標籤的正則表達式:ast

<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

 

若是隻想匹配div標籤,能夠使用下面的正則表達式:class

<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

是的,你能夠把div修改爲任意你想要匹配的HTML標籤原理

 

若是想同時匹配多個HTML標籤,能夠使用下面的正則表達式:im

<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

你還能夠繼續添加更多要匹配的標籤

 

若是想匹配包含ID的標籤,能夠使用下面的正則表達式:

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)

這個正則匹配任意id爲footer的HTML標籤

 

 

本文不徹底轉載了http://www.imkevinyang.com/2009/07/使用正則表達式匹配嵌套html標籤.html的內容

相關文章
相關標籤/搜索