PHP函數preg_match_all正則表達式的基本用法

PHP函數preg_match_all正則表達式的基本實例。
 
瞭解正則表達式以前,需要掌握一些經常使用的正則表達式的基礎知識,這些若是能記得最好記得,記不住需要用的時候能查到就行,就多個特殊字符,因此說正則表達式玩的就是特殊,具體你們能夠查看更加細緻的說明。 

preg_match_all函數具體說明你們能夠查看PHP手冊,本文運用 preg_match_all用於測試正則表達的效果。

實例代碼: 
$html = '<div id="biuuu">jbxue.com</div><div id="biuuu_2">jbxue.com2</div><div id="biuuu_3">jbxue.com3</div>';
實例要求:分別將每個DIV元素的ID和內容取出,如biuuu,biuuu_2,biuuu_3,jbxue.com,jbxue.com2和jbxue.com3(一些經常使用的抓站要領就是這樣匹配的) 

分析:字符串是一個基本的HTML元素,每個DIV元素對應該一個ID和內容,而且是獨立的,首先考慮如何 取出一個DIV內的ID值和內容,如:jbxue.com,而後匹配其它相似的元素。一個DIV中需要取出兩個值,也就是兩個匹配的表達式,第一個表達式用於匹配ID值(biuuu),第二個表達式用於匹配ID的內容(jbxue.com),正則表達式經常使用的表達式運用小括號,那麼前面的元素將會變成以下形式: 
<div id="(biuuu)">(jbxue.com)</div> 
<div id="(表達式1)">(表達式2)</div>
好,運用如上小括號把需要匹配的區域執行 了劃分,接下來就是如何 匹配各個表達式內的內容,咱們猜測一個ID多是字母,數字或下劃線,那這就變得基本了,運用中括號就能夠實現,以下:
表達式1:[a-zA-Z0-9_]+ (表示匹配大小寫字母,數字和下劃線) 
那如何 匹配表達式2,由於ID的內容能夠是任意的字符,可是要留心,不能匹配<或>字符,由於若是匹配這兩個字符將會把後面運用的DIV都匹配出來,所以需要排除這兩個字符開始的元素,也就是不匹配以<或>字符,以下:
表達式2:[^<>]+ (表示不匹配<和>字符) 
這樣,需要匹配的子表達式就實現了,可是還要需要匹配一個 的表達式,要領以下: 
表達式:/ '\"(表達式1)\"'>(表達式2)<\/div>/ 
留心其中的雙引號"和/需要運用 \轉義字符轉義,而後把前面兩個表達式放進去,
以下:
'\"([a-z0-9_]+)\"'>/<div id=\"([a-z0-9_]+)\">([^<>]+)<\/div>/
這樣就實現一個匹配每個DIV元素ID值和內容的正則表達式,而後運用 preg_match_all函數測試以下: 
$html = '<div id="biuuu">jbxue.com</div><div id="biuuu_2">jbxue.com2</div><div id="biuuu_3">jbxue.com3</div>'; 
preg_match_all('/<div\sid=\"([a-z0-9_]+)\">([^<>]+)<\/div>/',$html,$result); 
var_dump($result);
結果: 
array(3) { [0]=> array(3) 
{ [0]=> string(30) "<div id="biuuu">jbxue.com</div>" [1]=> string(33) "<div id="biuuu_2">jbxue.com2</div>" [2]=> string(33) "<div id="biuuu_3">jbxue.com3</div>" } [1]=> array(3) { [0]=> string(5) "biuuu" [1]=> string(7) "biuuu_2" [2]=> string(7) "biuuu_3" } [2]=> array(3) { [0]=> string(8) "jbxue.com" [1]=> string(9) "jbxue.com2" [2]=> string(9) "jbxue.com3" } }
共有三個表達式,分別顯示每個表達式匹配的值,並以數組的形式存儲,這樣就把每個DIV元素的ID和內容取出。運用正則表達式最主要仍是要知道需要什麼,而後跟椐需要執行 匹配,而且思路清晰,並適當的藉助preg_match_all函數執行 輸出調試,很是方便。
相關文章
相關標籤/搜索