python爬蟲實例介紹-Python網絡爬蟲概述

本文對Python網絡爬蟲做一個淺層次的概述,不涉及很細節的代碼、很底層的原理 簡單爬蟲架構 對應使用方便理解的語言描述該邏輯如下: 爬蟲調度端:啓動爬蟲、停止爬蟲、監視爬蟲的運行情況 URL管理器:對將要爬取和已經爬取的URL進行管理 網頁下載器: 從URL管理器中獲取一個將要爬取的URL,傳給網頁下載器 下載器將URL指向的網頁下載並存儲爲一個字符串 網頁解析器: 將網頁下載器下載下來的字符串
相關文章
相關標籤/搜索