正則表達式在爬蟲中的基礎知識

正則表達式在爬蟲的基礎知識 一、爬蟲的四個主要步驟: 1、明確目標(明確準備在哪個範圍或者網站搜索) 2、爬(將確定範圍的網站內容全部爬下來) 3、取(去掉無用處的數據) 4、處理數據(按照要求將數據存儲和使用) 二、正則表達式定義 1、正則表達式又稱規則表達式,通常被用來檢索,替換那些符合某個模式或規則的文本。 2、對字符串操作的一種邏輯公式,組成一個「規則字符串」,用來表達對字符串的一種過濾邏
相關文章
相關標籤/搜索