讀懂正則表達式就這麼簡單

一 前言

  對於正則表達式,相信不少人都知道,可是不少人的第一感受就是難學,由於看第一眼時,以爲徹底沒有規律可尋,並且全是一堆各類各樣的特殊符號,徹底不知所云。html

其實只是對正則不瞭解而以,瞭解了你就會發現,原來就這樣啊正則所用的相關字符其實很少,也不難記,更不難懂,惟一難的就是組合起來以後,可讀性比較差,並且不容易理解,本文旨在讓你們對正則有一個基本的瞭解,能看得懂簡單的正則表達式,寫得出簡單的正則表達式,用以知足平常開發中的需求便可。java

0\d{2}-\d{8}|0\d{3}-\d{7} 先來一段正則,若是你對正則不瞭解,是否是徹底不知道這一串字符是什麼意思?這沒關係文章會詳細解釋每一個字符的含義的。git

 

1.1 什麼是正則表達式正則表達式

     正則表達式是一種特殊的字符串模式,用於匹配一組字符串,就比如用模具作產品,而正則就是這個模具,定義一種規則去匹配符合規則的字符。app

1.2 經常使用的正則匹配工具 工具

     在線匹配工具:post

  1 http://www.regexpal.com/ url

      2 http://rubular.com/ spa

     正則匹配軟件.net

      McTracer 

      用過幾個以後仍是以爲這個是最好用的,支持將正則導成對應的語言如java C# js等還幫你轉義了,Copy直接用就好了很方便,另外支持把正則表達式用法解釋,如哪一段是捕獲分組,哪段是貪婪匹配等等,總之用起來 So Happy .

 

二 正則字符簡單介紹

2.1 元字符介紹

   "^" :^會匹配行或者字符串的起始位置,有時還會匹配整個文檔的起始位置。 

   "$"  :$會匹配行或字符串的結尾

    如圖

         並且被匹配的字符必須是以This開頭有空格也不行,必須以Regex結尾,也不能有空格與其它字符

     

 

 "\b" :不會消耗任何字符只匹配一個位置,經常使用於匹配單詞邊界 如 我想從字符串中"This is Regex"匹配單獨的單詞 "is" 正則就要寫成 "\bis\b"  

    \b 不會匹配is 兩邊的字符,但它會識別is 兩邊是否爲單詞的邊界 

 "\d": 匹配數字,

    例如要匹配一個固定格式的電話號碼以0開頭前4位後7位,如0737-5686123  正則:^0\d\d\d-\d\d\d\d\d\d\d$ 這裏只是爲了介紹"\d"字符,實際上有更好的寫法會在     下面介紹。

 "\w"匹配字母,數字,下劃線.

    例如我要匹配"a2345BCD__TTz" 正則:"\w+"  這裏的"+"字符爲一個量詞指重複的次數,稍後會詳細介紹。

 "\s":匹配空格 

    例如字符 "a b c" 正則:"\w\s\w\s\w"  一個字符後跟一個空格,若有字符間有多個空格直接把"\s" 寫成 "\s+" 讓空格重複

  "."匹配除了換行符之外的任何字符

    這個算是"\w"的增強版了"\w"不能匹配 空格 若是把字符串加上空格用"\w"就受限了,看下用 "."是如何匹配字符"a23 4 5 B C D__TTz"  正則:".+"

  "[abc]": 字符組  匹配包含括號內元素的字符 

        這個比較簡單了只匹配括號內存在的字符,還能夠寫成[a-z]匹配a至z的因此字母就等於能夠用來控制只能輸入英文了,

 

2.2 幾種反義

  寫法很簡單改爲大寫就好了,意思與原來的相反,這裏就不舉例子了

   "\W"   匹配任意不是字母,數字,下劃線 的字符

   "\S"   匹配任意不是空白符的字符

 "\D"  匹配任意非數字的字符

   "\B"  匹配不是單詞開頭或結束的位置

   "[^abc]"  匹配除了abc之外的任意字符

 

 2.3  量詞

  先解釋關於量詞所涉及到的重要的三個概念

    貪婪(貪心) 如"*"字符 貪婪量詞會首先匹配整個字符串,嘗試匹配時,它會選定儘量多的內容,若是 失敗則回退一個字符,而後再次嘗試回退的過程就叫作回溯,它會每次回退一個字符,直到找到匹配的內容或者沒有字符能夠回退。相比下面兩種貪婪量詞對資源的消耗是最大的,

   懶惰(勉強) 如 "?"  懶惰量詞使用另外一種方式匹配,它從目標的起始位置開始嘗試匹配,每次檢查一個字符,並尋找它要匹配的內容,如此循環直到字符結尾處。

   佔有  如"+" 佔有量詞會覆蓋事個目標字符串,而後嘗試尋找匹配內容 ,但它只嘗試一次,不會回溯,就比如先抓一把石頭,而後從石頭中挑出黃金

     "*"(貪婪)   重複零次或更多

     例如"aaaaaaaa" 匹配字符串中全部的a  正則: "a*"   會出到全部的字符"a"

     "+"(懶惰)   重複一次或更屢次

       例如"aaaaaaaa" 匹配字符串中全部的a  正則: "a+"  會取到字符中全部的a字符,  "a+"與"a*"不一樣在於"+"至少是一次而"*" 能夠是0次,

       稍後會與"?"字符結合來體現這種區別

     "?"(佔有)   重複零次或一次

       例如"aaaaaaaa" 匹配字符串中的a 正則 : "a?" 只會匹配一次,也就是結果只是單個字符a

   "{n}"  重複n次

       例如從"aaaaaaaa" 匹配字符串的a 並重復3次 正則:  "a{3}"  結果就是取到3個a字符  "aaa";

   "{n,m}"  重複n到m次

       例如正則 "a{3,4}" 將a重複匹配3次或者4次 因此供匹配的字符能夠是三個"aaa"也能夠是四個"aaaa" 正則均可以匹配到

     "{n,}"  重複n次或更屢次

       與{n,m}不一樣之處就在於匹配的次數將沒有上限,但至少要重複n次 如 正則"a{3,}" a至少要重複3次

 把量詞瞭解了以後以前匹配電話號碼的正則如今就能夠改得簡單點了^0\d\d\d-\d\d\d\d\d\d\d$ 能夠改成"^0\d+-\d{7}$"。

這樣寫還不夠完美若是由於前面的區號沒有作限定,以致於能夠輸入不少們,而一般只能是3位或者4位,

如今再改一下 "^0\d{2,3}-\d{7}"如此一來區號部分就能夠匹配3位或者4位的了

 2.4 懶惰限定符

  "*?"   重複任意次,但儘量少重複 

      如 "acbacb"  正則  "a.*?b" 只會取到第一個"acb" 本來能夠所有取到但加了限定符後,只會匹配儘量少的字符 ,而"acbacb"最少字符的結果就是"acb" 

  "+?"  重複1次或更屢次,但儘量少重複

     與上面同樣,只是至少要重複1次

  "??"  重複0次或1次,但儘量少重複

      如 "aaacb" 正則 "a.??b" 只會取到最後的三個字符"acb"

  "{n,m}?"  重複n到m次,但儘量少重複

          如 "aaaaaaaa"  正則 "a{0,m}" 由於最少是0次因此取到結果爲空

  "{n,}?"    重複n次以上,但儘量少重複

          如 "aaaaaaa"  正則 "a{1,}" 最少是1次因此取到結果爲 "a"

 

三  正則進階

     3.1 捕獲分組

  先了解在正則中捕獲分組的概念,其實就是一個括號內的內容 如 "(\d)\d" 而"(\d)" 這就是一個捕獲分組,能夠對捕獲分組進行 後向引用 (若是後而有相同的內容則能夠直接引用前面定義的捕獲組,以簡化表達式) 如(\d)\d\1 這裏的"\1"就是對"(\d)"的後向引用

那捕獲分組有什麼用呢看個例子就知道了

如  "zery zery" 正則 \b(\w+)\b\s\1\b 因此這裏的"\1"所捕獲到的字符也是 與(\w+)同樣的"zery",爲了讓組名更有意義,組名是能夠自定義名字的

"\b(?<name>\w+)\b\s\k<name>\b" 用"?<name>"就能夠自定義組名了而要後向引用組時要記得寫成 "\k<name>";自定義組名後,捕獲組中匹配到的值就會保存在定義的組名裏

下面列出捕獲分組常有的用法

 

"(exp)"    匹配exp,並捕獲文本到自動命名的組裏

"(?<name>exp)"   匹配exp,並捕獲文本到名稱爲name的組裏

"(?:exp)"  匹配exp,不捕獲匹配的文本,也不給此分組分配組號

如下爲零寬斷言

"(?=exp)"  匹配exp前面的位置

  如 "How are you doing" 正則"(?<txt>.+(?=ing))" 這裏取ing前全部的字符,並定義了一個捕獲分組名字爲 "txt" 而"txt"這個組裏的值爲"How are you do";

"(?<=exp)"  匹配exp後面的位置

  如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這裏取"How"以後全部的字符,並定義了一個捕獲分組名字爲 "txt" 而"txt"這個組裏的值爲" are you doing";

"(?!exp)"  匹配後面跟的不是exp的位置

  如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數字後非數字的結果

"(?<!exp)"  匹配前面不是exp的位置

  如 "abc123 " 正則 "(?<![0-9])123" 匹配"123"前面是非數字的結果也可寫成"(?!<\d)123"

 

四  正則實戰

  正則在作驗證,與數據過濾時體現的威力是巨大的,我想用過的朋友都知道,下面咱們把剛剛瞭解的所有結合起來作一次實戰 作數據採集用正則過濾Html標籤並取相應的數據

咱們的戰場就選在博客園吧,假設如今要採集博客園首頁的全部文章信息 包括文章標題,連接接 做者博客地址,文章簡介,文章發佈時間,閱讀數據,評論數 ,推薦數。

 

先看博客園文章的Html格式

<div class="post_item">
<div class="digg">
    <div class="diggit" onclick="DiggIt(3439076,120879,1)"> 
    <span class="diggnum" id="digg_count_3439076">4</span>
    </div>
    <div class="clear"></div>    
    <div id="digg_tip_3439076" class="digg_tip"></div>
</div>      
<div class="post_item_body">
    <h3><a class="titlelnk" href="http://www.cnblogs.com/swq6413/p/3439076.html" target="_blank">分享完整的項目工程目錄結構</a></h3>                   
    <p class="post_item_summary">
<a href="http://www.cnblogs.com/swq6413/" target="_blank"><img width="48" height="48" class="pfs" src="http://pic.cnitblog.com/face/142964/20131116170946.png" alt=""/></a> 在項目開發過程當中,如何有序的保存項目中的各種數據文件,創建一個分類清晰、方便管理的目錄結構是很是重要的。 綜合之前的項目和一些朋友的項目結構,我整理了一份我以爲還不錯的項目目錄結構。 在這裏分享給你們,歡迎各位提出你寶貴的意見和建議。若是喜歡請「推薦」則個,感激萬分!! 整個目錄設置到4級子目錄,實... </p>              
    <div class="post_item_foot">                    
    <a href="http://www.cnblogs.com/swq6413/" class="lightblue">七少爺</a> 發佈於 2013-11-23 15:48 <span class="article_comment"><a href="http://www.cnblogs.com/swq6413/p/3439076.html#commentform" title="2013-11-23 16:40" class="gray"> 評論(4)</a></span><span class="article_view"><a href="http://www.cnblogs.com/swq6413/p/3439076.html" class="gray">閱讀(206)</a></span></div>
</div>
<div class="clear"></div>
</div>

 

 

 經過構造一個Http請求來取到數據並對數據進行相應處理獲得關鍵信息,在過濾Html標籤取文章時正則的強大的威力就體現出來了,

正則的知識點也都基本用上了好比 "\s \w+ . * ? "還有捕獲分組,零寬斷言等等。喜歡的朋友能夠試一試,而後本身看如何經過正則取相應數據的,代碼中的正則都是很基本簡單的,其意思與用法都在上文中詳細寫了。

 

class Program { static void Main(string[] args) { string content = HttpUtility.HttpGetHtml(); HttpUtility.GetArticles(content); } } internal class HttpUtility { //默認獲取第一頁數據
        public static string HttpGetHtml() { HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.cnblogs.com/"); request.Accept = "text/plain, */*; q=0.01"; request.Method = "GET"; request.Headers.Add("Accept-Language", "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3"); request.ContentLength = 0;  request.Host = "www.cnblogs.com"; request.UserAgent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.1.3.5000 Chrome/26.0.1410.43 Safari/537.1"; HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream responStream = response.GetResponseStream(); StreamReader reader = new StreamReader(responStream, Encoding.UTF8); string content = reader.ReadToEnd(); return content; } public static List<Article> GetArticles(string htmlString) { List<Article> articleList = new List<Article>(); Regex regex = null; Article article = null; regex = new Regex("<div class=\"post_item\">(?<content>.*?)(?=<div class=\"clear\">" + @"</div>\s*</div>)", RegexOptions.Singleline); if (regex.IsMatch(htmlString)) { MatchCollection aritcles = regex.Matches(htmlString); foreach (Match item in aritcles) { article = new Article(); //取推薦
                    regex =
                        new Regex( "<div class=\"digg\">.*<span.*>(?<digNum>.*)" + @"</span>" +
                            ".*<div class=\"post_item_body\">", RegexOptions.Singleline); article.DiggNum = regex.Match(item.Value).Groups["digNum"].Value; //取文章標題 須要去除轉義字符
                    regex = new Regex("<h3>(?<a>.*)</h3>", RegexOptions.Singleline); string a = regex.Match(item.Value).Groups["a"].Value; regex = new Regex("<a\\s.*href=\"(?<href>.*?)\".*>(?<summary>.*)</a>", RegexOptions.Singleline); article.AritcleUrl = regex.Match(a).Groups["href"].Value; article.AritcleTitle = regex.Match(a).Groups["summary"].Value; //取做者圖片 
                    regex = new Regex("<a.*>(?<img><img[^>].*>)</a>", RegexOptions.Singleline); article.AuthorImg = regex.Match(item.Value).Groups["img"].Value; //取做者博客URL及連接的target屬性
                    regex = new Regex("<a\\s*?href=\"(?<href>.*)\"\\s*?target=\"(?<target>.*?)\">.*</a>", RegexOptions.Singleline); article.AuthorUrl = regex.Match(item.Value).Groups["href"].Value; string urlTarget = regex.Match(item.Value).Groups["target"].Value; //取文章簡介 //1 先取summary Div中全部內容
                    regex = new Regex("<p class=\"post_item_summary\">(?<summary>.*)</p>", RegexOptions.Singleline); string summary = regex.Match(item.Value).Groups["summary"].Value; //2 取簡介
                    regex = new Regex("(?<indroduct>(?<=</a>).*)", RegexOptions.Singleline); article.AritcleInto = regex.Match(summary).Groups["indroduct"].Value; //取發佈人與發佈時間
                    regex =
                        new Regex( "<div class=\"post_item_foot\">\\s*<a.*?>(?<publishName>.*)</a>(?<publishTime>.*)<span class=\"article_comment\">", RegexOptions.Singleline); article.Author = regex.Match(item.Value).Groups["publishName"].Value; article.PublishTime = regex.Match(item.Value).Groups["publishTime"].Value.Trim(); //取評論數
                    regex =
                        new Regex( "<span class=\"article_comment\"><a.*>(?<comment>.*)</a></span><span class=\"article_view\">", RegexOptions.Singleline); article.CommentNum = regex.Match(item.Value).Groups["comment"].Value; //取閱讀數
                    regex = new Regex("<span\\s*class=\"article_view\"><a.*>(?<readNum>.*)</a>", RegexOptions.Singleline); article.ReadNum = regex.Match(item.Value).Groups["readNum"].Value; articleList.Add(article); } } return articleList; } public static string ClearSpecialTag(string htmlString) { string htmlStr = Regex.Replace(htmlString, "\n", "", RegexOptions.IgnoreCase); htmlStr = Regex.Replace(htmlStr, "\t", "", RegexOptions.IgnoreCase); htmlStr = Regex.Replace(htmlStr, "\r", "", RegexOptions.IgnoreCase); htmlStr = Regex.Replace(htmlStr, "\"", "'", RegexOptions.IgnoreCase); return htmlStr; } } public class Article { /// <summary>
        /// 文章標題 /// </summary>
        public string AritcleTitle { get; set; } /// <summary>
        /// 文章連接 /// </summary>
        public string AritcleUrl { get; set; } /// <summary>
        /// 文章簡介 /// </summary>
        public string AritcleInto { get; set; } /// <summary>
        /// 做者名 /// </summary>
        public string Author { get; set; } /// <summary>
        /// 做者地址 /// </summary>
        public string AuthorUrl { get; set; } /// <summary>
        /// 做者圖片 /// </summary>
        public string AuthorImg { get; set; } /// <summary>
        /// 發佈時間 /// </summary>
        public string PublishTime { get; set; } /// <summary>
        /// 推薦數 /// </summary>
        public string DiggNum { get; set; } /// <summary>
        /// 評論數 /// </summary>
        public string CommentNum { get; set; } /// <summary>
        /// 閱讀數 /// </summary>
        public string ReadNum { get; set; } }

 正則部分可能寫得不很完美,但至少也匹配出來了,另外由於本身也是剛接觸正則,也只能寫出這種比較簡單的正則。還望你們海涵~~

 

 

五    總結

  正則其實並不難,瞭解每一個符號的意思後,本身立刻動手試一試多寫幾回天然就明白了,正則是出了名的坑多,隨便少寫了個點就匹配不到數據了,我也踩了不少坑,踩着踩着就踩出經驗了。

本文也只是對正則作了很基本的介紹,還有不少正則的字符沒有介紹,只是寫了比較經常使用的一些。若有錯誤之處,還望在評論中指出,我會立刻修改。

 

 

若是您以爲本文有給您帶來一點收穫,不妨點個推薦,爲個人付出支持一下,謝謝~

若是但願在技術的道路上能有更多的朋友,那就關注下我吧,讓咱們一塊兒在技術的路上奔跑

相關文章
相關標籤/搜索