Python爬蟲基礎——正則表達式

說到爬蟲,不可避免的會牽涉到正則表達式。
由於你須要清晰地知道你須要爬取什麼信息?它們有什麼共同點?能夠怎麼去表示它們?
而這些,都須要咱們熟悉正則表達,才能更好地去提取。


先簡單複習一下各表達式所表明的意思:
在這裏插入圖片描述
在這裏插入圖片描述

正則表達式

案例:

  • 定義密碼的正則表達式:
    英文字母開頭,能夠包括數字、大小寫英文字母、下劃線,6-16位。
    表達式爲:
    password_pattern='^[a-zA-Z]{1}[a-zA-Z0-9_]{5-15}$'
    password pattern='^[a-zA-Z][a-zA-Z0-9_]{5-15}$'3d

  • 匹配div標籤,class="class1"中的文本內容:
    <div class="class1">要匹配的內容</div>
    表達式爲:
    div_pattern1='<div class="class1">(.*)</div>'code

  • 匹配div標籤中div標籤,class="class1"中的文本內容:
    <div><div class="class1">要匹配的內容</div></div>
    表達式爲:
    div_pattern1='<div class="class1">(.*?)</div>'blog

注意:?的做用是關閉貪婪模式,若是去掉?,則會匹配出要匹配的內容</div>字符串。圖片

相關文章
相關標籤/搜索