正則表達式 正則表達式(Regular Expression)是一種文本模式,包括普通字符(例如,a 到 z 之間的字母)和特殊字符(稱爲"元字符")。正則表達式
正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規則的字符串。express
正則表達式是繁瑣的,但它是強大的,學會以後的應用會讓你除了提升效率外,會給你帶來絕對的成就感。只要認真閱讀本教程,加上應用的時候進行必定的參考,掌握正則表達式不是問題。緩存
許多程序設計語言都支持利用正則表達式進行字符串操做.this
應用領域操作系統
目前,正則表達式已經在不少軟件中獲得普遍的應用,包括 *nix(Linux, Unix等)、HP 等操做系統,PHP、C#、Java 等開發環境,以及不少的應用軟件中,均可以看到正則表達式的影子。.net
舉個例子: 如下實例從字符串 str 中找出數字:設計
從字符串 str 中提取數字部分的內容(匹配一次):3d
如下標記的文本是得到的匹配的表達式:123[0-9]+匹配多個數字, [0-9] 匹配單個數字,+ 匹配一個或者多個。cdn
abc 爲匹配輸入字符串的結束位置。blog
咱們在寫用戶註冊表單時,只容許用戶名包含字符、數字、下劃線和鏈接字符(-),並設置用戶名的長度,咱們就可使用如下正則表達式來設定。
以上的正則表達式能夠匹配 runoob、runoob一、run-oob、run_oob, 但不匹配 ru,由於它包含了大寫的字母並且過短了,也不匹配 runoob$, 由於它包含特殊字符。
正則表達式(regular expression)描述了一種字符串匹配的模式(pattern),能夠用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。
例如:
runoo+b,能夠匹配 runoob、runooob、runoooooob 等,+ 號表明前面的字符必須至少出現一次(1次或屢次)。
runoob,能夠匹配 runob、runoob、runoooooob 等, 號表明字符能夠不出現,也能夠出現一次或者屢次(0次、或1次、或屢次)。
colou?r 能夠匹配 color 或者 colour,? 問號表明前面的字符最多隻能夠出現一次(0次、或1次)。
在其餘語言中,\ 表示:我想要在正則表達式中插入一個普通的(字面上的)反斜槓,請不要給它任何特殊的意義。
在 Java 中,\ 表示:我要插入一個正則表達式的反斜線,因此其後的字符具備特殊的意義。
因此,在其餘的語言中(如Perl),一個反斜槓 \ 就足以具備轉義的做用,而在 Java 中正則表達式中則須要有兩個反斜槓才能被解析爲其餘語言中的轉義做用。也能夠簡單的理解在 Java 的正則表達式中,兩個 \ 表明其餘語言中的一個 \,這也就是爲何表示一位數字的正則表達式是 \d,而表示一個普通的反斜槓是 \\。
非打印字符也能夠是正則表達式的組成部分。下表列出了表示非打印字符的轉義序列:
所謂特殊字符,就是一些有特殊含義的字符,如上面說的 runoo*b 中的 ,簡單的說就是表示任何字符串的意思。若是要查找字符串中的 * 符號,則須要對 * 進行轉義,即在其前加一個 : runo*ob 匹配 runoob。
許多元字符要求在試圖匹配它們時特別對待。若要匹配這些特殊字符,必須首先使字符"轉義",即,將反斜槓字符\ 放在它們前面。下表列出了正則表達式中的特殊字符:
限定符用來指定正則表達式的一個給定組件必需要出現多少次才能知足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6種。
正則表達式的限定符有:
定位符使您可以將正則表達式固定到行首或行尾。它們還使您可以建立這樣的正則表達式,這些正則表達式出如今一個單詞內、在一個單詞的開頭或者一個單詞的結尾。
定位符用來描述字符串或單詞的邊界,^ 和 $ 分別指字符串的開始與結束,\b 描述單詞的前或後邊界,\B 表示非單詞邊界。
正則表達式的定位符有:
用圓括號將全部選擇項括起來,相鄰的選擇項之間用|分隔。但用圓括號會有一個反作用,使相關的匹配會被緩存,此時可用?:放在第一個選項前來消除這種反作用。
其中 ?: 是非捕獲元之一,還有兩個非捕獲元是 ?= 和 ?!,這兩個還有更多的含義,前者爲正向預查,在任何開始匹配圓括號內的正則表達式模式的位置來匹配搜索字符串,後者爲負向預查,在任何開始不匹配該正則表達式模式的位置來匹配搜索字符串。
對一個正則表達式模式或部分模式兩邊添加圓括號將致使相關匹配存儲到一個臨時緩衝區中,所捕獲的每一個子匹配都按照在正則表達式模式中從左到右出現的順序存儲。緩衝區編號從 1 開始,最多可存儲 99 個捕獲的子表達式。每一個緩衝區均可以使用 \n 訪問,其中 n 爲一個標識特定緩衝區的一位或兩位十進制數。
可使用非捕獲元字符 ?:、?= 或 ?! 來重寫捕獲,忽略對相關匹配的保存。
反向引用的最簡單的、最有用的應用之一,是提供查找文本中兩個相同的相鄰單詞的匹配項的能力。如下面的句子爲例:
Is is the cost of of gasoline going up up? 上面的句子很顯然有多個重複的單詞。若是能設計一種方法定位該句子,而沒必要查找每一個單詞的重複出現,那該有多好。下面的正則表達式使用單個子表達式來實現這一點:
**查找重複的單詞:
var str = "Is is the cost of of gasoline going up up"; var patt1 = /\b([a-z]+) \1\b/ig; document.write(str.match(patt1));
捕獲的表達式,正如 [a-z]+ 指定的,包括一個或多個字母。正則表達式的第二部分是對之前捕獲的子匹配項的引用,即,單詞的第二個匹配項正好由括號表達式匹配。\1 指定第一個子匹配項。
單詞邊界元字符確保只檢測整個單詞。不然,諸如 "is issued" 或 "this is" 之類的詞組將不能正確地被此表達式識別。
正則表達式後面的全局標記 g 指定將該表達式應用到輸入字符串中可以查找到的儘量多的匹配。
表達式的結尾處的不區分大小寫 i 標記指定不區分大小寫。