參考網址:http://baike.baidu.com/link?url=2zORJF9GOjU8AkmuHDLz9cyl9yiL68PdW3frayzLwWQhDvDEM51V_CcY_g1mZ7OPdcq8exFSiLusZwODAos5C_javascript
http://www.cnblogs.com/xiashengwang/p/3988573.html html
http://www.cnblogs.com/symbol441/articles/957950.html java
文本: 正則表達式
方法1: 匹配,捕獲(存儲)網絡
正則表達式:(?<=(href=")).{1,200}(?=(">))測試
解釋:(?<=(href=")) 表示 匹配以(href=")開頭的字符串,而且捕獲(存儲)到分組中url
(?=(">)) 表示 匹配以(">)結尾的字符串,而且捕獲(存儲)到分組中spa
匹配結果:3d
方法2: 匹配,不捕獲(不存儲)htm
正則表達式:(?<=(?:href=")).{1,200}(?=(?:">))
解釋:(?<=(?:href=")) 表示 匹配以(href=")開頭的字符串,而且不捕獲(不存儲)到分組中
(?=(?:">)) 表示 匹配以(">)結尾的字符串,而且不捕獲(不存儲)到分組中
匹配結果:
(
?:pattern)
|
非獲取匹配,匹配pattern但不獲取匹配結果,不進行存儲供之後使用。這在使用或字符「(|)」來組合一個模式的各個部分是頗有用。例如「industr(?:y|ies)」就是一個比「industry|industries」更簡略的表達式。
|
(?=pattern)
|
非獲取匹配,正向確定預查,在任何匹配pattern的字符串開始處匹配查找字符串,該匹配不須要獲取供之後使用。例如,「Windows(?=95|98|NT|2000)」能匹配「Windows2000」中的「Windows」,但不能匹配「Windows3.1」中的「Windows」。預查不消耗字符,也就是說,在一個匹配發生後,在最後一次匹配以後當即開始下一次匹配的搜索,而不是從包含預查的字符以後開始。
|
(?!pattern)
|
非獲取匹配,正向否認預查,在任何不匹配pattern的字符串開始處匹配查找字符串,該匹配不須要獲取供之後使用。例如「Windows(?!95|98|NT|2000)」能匹配「Windows3.1」中的「Windows」,但不能匹配「Windows2000」中的「Windows」。
|
(?<=pattern)
|
非獲取匹配,反向確定預查,與正向確定預查相似,只是方向相反。例如,「(?<=95|98|NT|2000)Windows」能匹配「2000Windows」中的「Windows」,但不能匹配「3.1Windows」中的「Windows」。
|
(?<!pattern)
|
非獲取匹配,反向否認預查,與正向否認預查相似,只是方向相反。例如「(?<!95|98|NT|2000)Windows」能匹配「3.1Windows」中的「Windows」,但不能匹配「2000Windows」中的「Windows」。這個地方不正確,有問題
|
【分組】
咱們已經提到了怎麼重複單個字符(直接在字符後面加上限定符就好了);但若是想要重複一個字符串又該怎麼辦?你能夠用小括號來指定子表達式(也叫作分組),而後你就能夠指定這個子表達式的重複次數了,你也能夠對子表達式進行其它一些操做(後面會有介紹)。(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式,請按下列順序分析它:
\d{1,3}匹配1到3位的數字,(\d{1,3}\.}{3}匹配三位數字加上一個英文句號(這個總體也就是這個分組)重複3次,最後再加上一個一到三位的數字(\d{1,3})。
不幸的是,它也將匹配256.300.888.999這種不可能存在的IP地址(IP地址中每一個數字都不能大於255)。若是能使用算術比較的話,或許能簡單地解決這個問題,可是正則表達式中並不提供關於數學的任何功能,因此只能使用冗長的分組,選擇,字符類來描述一個正確的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這裏我就不細說了,你本身應該能分析得出來它的意義。
【後向引用】
使用小括號指定一個子表達式後,匹配這個子表達式的文本能夠在表達式或其它程序中做進一步的處理。默認狀況下,每一個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號爲標誌,第一個出現的分組的組號爲1,第二個爲2,以此類推。
後向引用用於重複搜索前面某個分組匹配的文本。例如,\1表明分組1匹配的文本。難以理解?請看示例:
\b(\w+)\b\s+\1\b能夠用來匹配重複的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b),而後是1個或幾個空白符(\s+),最後是前面匹配的那個單詞(\1)。
你也能夠本身指定子表達式的組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+)(或者把尖括號換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定爲Word了。要反向引用這個分組捕獲的內容,你可使用\k<Word>,因此上一個例子也能夠寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b。
使用小括號的時候,還有不少特定用途的語法。下面列出了最經常使用的一些:
分組語法 捕獲
(exp) 匹配exp,並捕獲文本到自動命名的組裏
(?<name>exp) 匹配exp,並捕獲文本到名稱爲name的組裏,也能夠寫成(?'name'exp)
(?:exp) 匹配exp,不捕獲匹配的文本
位置指定
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp後面的位置
(?!exp) 匹配後面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
註釋
(?#comment) 這種類型的組不對正則表達式的處理產生任何影響,只是爲了提供讓人閱讀註釋
咱們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組裏面。
位置指定
接下來的四個用於查找在某些內容(但並不包括這些內容)以前或以後的東西,也就是說它們用於指定一個位置,就像\b,^,$那樣,所以它們也被稱爲零寬斷言。最好仍是拿例子來講明吧:
(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的後面能匹配給定的後綴exp。好比\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing之外的部分),若是在查找I'm singing while you're dancing.時,它會匹配sing和danc。
(?<=exp)也叫零寬後行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。好比(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re之外的部分),例如在查找reading a book時,它匹配ading。
假如你想要給一個很長的數字中每三位間加一個逗號(固然是從右邊加起了),你能夠這樣查找須要在前面和裏面添加逗號的部分:((?<=\d)\d{3})*\b。請仔細分析這個表達式,它可能不像你第一眼看出來的那麼簡單。
下面這個例子同時使用了前綴和後綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)。
負向位置指定
前面咱們提到過怎麼查找不是某個字符或不在某個字符類裏的字符的方法(反義)。可是若是咱們只是想要確保某個字符沒有出現,但並不想去匹配它時怎麼辦?例如,若是咱們想查找這樣的單詞--它裏面出現了字母q,可是q後面跟的不是字母u,咱們能夠嘗試這樣:
\b\w*q[^u]\w*\b匹配包含後面不是字母u的字母q的單詞。可是若是多作測試(或者你思惟足夠敏銳,直接就觀察出來了),你會發現,若是q出如今單詞的結尾的話,像Iraq,Benq,這個表達式就會出錯。這是由於[^u]老是匹配一個字符,因此若是q是單詞的最後一個字符的話,後面的[^u]將會匹配q後面的單詞分隔符(多是空格,或者是句號或其它的什麼),後面的\w*\b將會匹配下一個單詞,因而\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題,由於它只匹配一個位置,並不消費任何字符。如今,咱們能夠這樣來解決這個問題:\b\w*q(?!u)\w*\b。
零寬負向先行斷言(?!exp),只會匹配後綴exp不存在的位置。\d{3}(?!\d)匹配三位數字,並且這三位數字的後面不能是數字。
同理,咱們能夠用(?<!exp),零寬負向後行斷言來查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字(實驗時發現錯誤?注意你的「區分大小寫」先項是否選中)。
一個更復雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內裏的內容。(<?(\w+)>)指定了這樣的前綴:被尖括號括起來的單詞(好比多是<b>),而後是.*(任意的字符串),最後是一個後綴(?=<\/\1>)。注意後綴裏的\/,它用到了前面提過的字符轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣若是前綴其實是<b>的話,後綴就是</b>了。整個表達式匹配的是<b>和</b>之間的內容(再次提醒,不包括前綴和後綴自己)。
如今網絡上如今很流行的爬蟲程序,其實就是根據正則表達式來對網頁進行解析匹配獲取有用信息分組並存儲下來的.
像網頁上最多的就是像<table>,<tr>,<td>之類的標籤,而相對於咱們用戶而言,這些都是沒有任意意義的,有意義的是其中所包含的值.如<a href="http://www.163.com">網易</a>我所所關心的就是其href屬性當中的值,還有就是其文字結點的值.其它的對於咱們來講沒有任何意義.這就要運用到咱們所說的正確表達式匹配了.
不過若是咱們只是針對取某一個標籤的結點值,咱們能夠經過javascript+DOM方法把他們取出來,不過要是否是一類而是要求所有內空當中去取,那樣用DOM動態解析的方式就顯着有時很差用了.
下同說一個我運用的實例吧
我有一個頁面:
<p> 11-13 <a href=/bj/11/109/4969873.html target=_blank> 中介 - 3400元/3居 - 紫竹橋兵器大廈附近大三居 (紫竹院) </a>
<p> 11-13 <a href=/bj/11/104/4969872.html target=_blank> 1200元/3居 - 出租上地三居室合住(免中介費) (上地) </a>
<p> 11-13 <a href=/bj/11/114/4969866.html target=_blank> 中介 - 2600元/2居 - 北太平莊43號院二居出租 (北太平莊) </a>
<p> 11-13 <a href=/bj/11/914/4969865.html target=_blank> 400元/1居 - 單間獨立衛浴免供暖費 (北七家) </a>
<p> 11-13 <a href=/bj/11/301/4969864.html target=_blank> 中介 - 2400元/2居 - 東直門春秀路太平莊南里二居室出租 (東直門外三里屯工人體育館) </a>
<p> 11-13 <a href=/bj/11/208/4969863.html target=_blank> 中介 - 2400元/4居 - 出租定福家園新房四居室 (團結湖) </a>
<p> 11-13 <a href=/bj/11/214/4969862.html target=_blank> 中介 - 2600元/3居 - 花家地北里三室一廳出租 (酒仙橋 將臺路) </a>
<p> 11-13 <a href=/bj/11/209/4969859.html target=_blank> 1300元/1居 - 十里堡華堂附近新公寓合租 (京廣橋 紅廟 八里莊) </a>
<p> 11-13 <a href=/bj/11/70/4969846.html target=_blank> 中介 - 600元/3居 - 出租豐益橋西盛鑫家園4室2廳2衛精裝修的房子(免收中介費 (豐益橋西盛鑫家園) </a>
<p> 11-13 <a href=/bj/11/901/4969844.html target=_blank> 750元/3居 - 田園風光雅園3居中的一居室出租 (回龍觀) </a>
<p> 11-13 <a href=/bj/11/1101/4969840.html target=_blank> 350元/1居 - 找一女孩跟我合租 (亦莊) </a>
<p> 11-13 <a href=/bj/11/102/4969839.html target=_blank> 中介 - 3400元/3居 - 出租知春裏小區三居室 (北京大學) </a>
<p> 11-13 <a href=/bj/11/217/4969838.html target=_blank> 1100元/3居 - 雙井橋 三居 出租 (新裝修的)合租 (雙井) </a>
<p> 11-13 <a href=/bj/11/70/4969837.html target=_blank> 中介 - 3500元/3居 - 豐臺區兆豐園精裝修房子一套低價出租 (玉泉路 吳家村) </a>
<p> 11-13 <a href=/bj/11/70/4969835.html target=_blank> 中介 - 2900元/3居 - 我有一套長安新城精裝修的三居室要出租 (青塔 大成路 長安新城) </a>
<p> 11-13 <a href=/bj/11/201/4969834.html target=_blank> 中介 - 2200元/1居 - 房屋出租,北辰附近 (亞運村) </a>
我如今要取出其中的連接和相應的關鍵描述字符,即從相似
<p> 11-13 <a href=/bj/11/70/4969837.html target=_blank> 中介 - 3500元/3居 - 豐臺區兆豐園精裝修房子一套低價出租 (玉泉路 吳家村) </a>
中取出咱們想要的信息,第一就是連接地址:/bj/11/70/496837.html;第二就是其描述信息:中介 - 3500元/3居 - 豐臺區兆豐園精裝修房子一套低價出租 (玉泉路 吳家村)
如今咱們來分析下咱們所取字符的共同特徵,簡單總結一下分爲如下幾個部分
1.他們都是以<a href=打頭,以</a>結尾.
2.在href屬性以後有可能還有其餘的屬性標籤,如class,等其它相關的屬性.
方向肯定咱們就能夠肯定着手寫正則式了
首先知足第一條件頭就爲<a\s+href=;就是這樣,很簡單吧,一樣,末尾爲</a>也能夠直接寫
應該說如今已經能夠正常匹配了,不過他匹配了一個整個的<a>標籤,不是咱們所想要的,咱們只是想要其中的部分
因此還須要繼續修改,由於咱們要在一個標籤中去取兩個部分,一個連接和描述文字,其最好的方法就是把他們放在一個分組當中,待咱們使用時能夠直接使用,關於創建分組,前面的資料說的很清楚.爲了直觀,咱們採用自定義分組,即(?<分組名>)格式
一塊兒組織起來就成了咱們想要的.
即
(?<=<a\s+href=(?<link>.*?(?=\starget=)).*?>(?<content>.*?)(?=</a>)
由於時間的關係,其中分析過程略的較多,不過具體大致思路就像如上所說.只不過具體的問題具體分析.