基本爬蟲框架

基本爬蟲框架包括五個模塊:爬蟲調度器、URL管理器、HTML下載器、HTML解析器、數據存儲器。 1. 爬蟲調度器負責統籌其餘四個模塊協調工做。 2. URL管理器負責管理URL連接,包括已爬取的連接和未爬取的連接。 3. HTML下載器用於從URL管理器中獲取未爬取的連接並下載其HTML網頁。 4. HTML解析器用於解析HTML下載器下載的HTML網頁,獲取URL連接交給URL管理器,提取要獲
相關文章
相關標籤/搜索