python爬蟲(二)簡單的架構

要實現一個爬蟲我們需要考慮那幾個方面呢? 首先我們需要一個爬蟲的調度端,來啓動爬蟲,運行爬蟲,監視爬蟲的運行情況. 在爬蟲程序有三個模塊. 1 URL管理器 : 將我們的將要爬取得URL和已經爬取過的URL 2 網頁下載器: 將我們URL管理器中待爬取的URL將其傳送給網頁下載器,下載器將指定的URL下載下來組成一個字符串. 3 網頁解析器: 將我們的網頁下載器下載下來的字符串傳送給網頁解析器,然
相關文章
相關標籤/搜索