說到爬蟲,不可避免的會牽涉到正則表達式。
由於你須要清晰地知道你須要爬取什麼信息?它們有什麼共同點?能夠怎麼去表示它們?
而這些,都須要咱們熟悉正則表達,才能更好地去提取。
先簡單複習一下各表達式所表明的意思:
正則表達式
定義密碼的正則表達式:
英文字母開頭,能夠包括數字、大小寫英文字母、下劃線,6-16位。
表達式爲:
password_pattern='^[a-zA-Z]{1}[a-zA-Z0-9_]{5-15}$'
或password pattern='^[a-zA-Z][a-zA-Z0-9_]{5-15}$'
3d
匹配div標籤,class="class1"中的文本內容:
<div class="class1">要匹配的內容</div>
表達式爲:
div_pattern1='<div class="class1">(.*)</div>'
code
匹配div標籤中div標籤,class="class1"中的文本內容:
<div><div class="class1">要匹配的內容</div></div>
表達式爲:
div_pattern1='<div class="class1">(.*?)</div>'
blog
注意:?
的做用是關閉貪婪模式,若是去掉?
,則會匹配出要匹配的內容</div>
字符串。圖片