python 爬蟲總結

一,爬蟲是什麼 爬蟲:一段自動抓取互聯網信息的程序,從互聯網上抓取對於咱們有價值的信息。html 二,爬蟲的基本構架 爬蟲分爲五個基本構架:web 調度器:至關於一臺電腦的CPU,主要負責調度URL管理器、下載器、解析器之間的協調工做。 URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重複抓取URL和循環抓取URL,實現URL管理器主要用三種方式,經過內存、數據庫、緩存數據庫來實現。
相關文章
相關標籤/搜索