爬蟲的分層結構

抓取層

  1. 主要做用是獲取原始網頁的HTML數據或者JSON數據

調度層

  1. 負責準備即將爬取的URL與分配爬取任務

解析層

  1. 將原始數據解析爲結構化數據,保存至數據庫

存儲層

  1. 負責將數據保存到數據庫
相關文章
相關標籤/搜索