Python學習筆記之爬蟲

爬蟲調度端:啓動爬蟲,停止爬蟲,監視爬蟲運行情況 URL管理器:對將要爬取的和已經爬取過的URL進行管理;可取出帶爬取的URL,將其傳送給「網頁下載器」 網頁下載器:將URL指定的網頁下載,存儲成一個字符串,在傳送給「網頁解析器」 網頁解析器:解析網頁可解析出①有價值的數據②另一方面,每個網頁都包含有指向其他網頁的URL,解析出來後可補充進「URL管理器」       網頁解析器——Beautif
相關文章
相關標籤/搜索