python網絡爬蟲的簡單架構

  1、首先需要一個爬蟲客戶端來啓動爬蟲或者監視爬蟲的運行情況   2、URL管理器對將要爬取的URL和已爬取的URL進行管理,對URL管理的目的是爲了避免重複爬取和循環爬取;從URL管理器中可以取出一個待爬取的URL傳送給網頁下載器, 網頁下載器會將網頁下 載下來存儲成一個字符串,這個字符串會傳送給網頁解析器進行解析;一方面會解析出有價值的數據, 另一方面每個網頁都有很多指向其他網 頁的 URL
相關文章
相關標籤/搜索