爬蟲:正則表達式

正則表達式 以英文字母開頭,出現一次。後面的是數字,大小寫,出現5到15位,一共6-16位。前面那個1可以省略。 要匹配div標籤中的內容。 關閉貪婪模式,這裏加了一個?。因爲正則表達式是默認匹配儘量多的內容的,關閉貪婪模式,這裏就不會加div也匹配進去。 re模塊使用 re模塊有很多方法,但是爬蟲中常用的有提取,匹配和替換。 案例:比如現在有個html文件,要提取它的Email和手機號。 首先,
相關文章
相關標籤/搜索