python爬蟲之一_基本架構

本文內容來源於慕課網爬蟲視頻 一 python爬蟲基本架構 1.1 基本架構 一個完整的爬蟲程序包含以下以下四個部件:調度器、URL管理器、網頁下載器、網頁解析器。 調度器: 調用其他組件,並控制目標數據輸出; URL管理器: 保存待爬取、已爬取URL,要防止爬取重複的URL; 網頁下載器: 根據URL下載HTML頁面或多媒體內容,對於動態頁面要考慮執行js; 網頁解析器: 解析HTML頁面中的文
相關文章
相關標籤/搜索