[Python 實戰] - No.1 爬蟲基本結構講解

最近的一個項目需要用到爬蟲爬取微博博文,所以特地學習了一下python 爬蟲。特此記錄,以方便日後再次用到,在這裏我只記錄爬蟲相關結構介紹,圖片來源自imooc python爬蟲課程。 1. 爬蟲基本架構: 爬蟲最重要的三個部分就是URL管理器、網頁下載器、和網頁解析器。其作用分別爲: 1. URL管理器:主要是用於儲存爬蟲程序對應的URL。對於最新得到的URL,維護一個容器,儲存所有未被爬取過的
相關文章
相關標籤/搜索