python網絡爬蟲的簡單架構

時間 2020-12-31

原文原文鏈接

1、首先需要一個爬蟲客戶端來啓動爬蟲或者監視爬蟲的運行情況 2、URL管理器對將要爬取的URL和已爬取的URL進行管理，對URL管理的目的是爲了避免重複爬取和循環爬取；從URL管理器中可以取出一個待爬取的URL傳送給網頁下載器，網頁下載器會將網頁下載下來存儲成一個字符串，這個字符串會傳送給網頁解析器進行解析；一方面會解析出有價值的數據，另一方面每個網頁都有很多指向其他網頁的 URL

>>阅读原文<<