爬蟲抓取時的幾個小細節-緩存、編碼、解析

一:網頁更新html      咱們知道,通常網頁中的信息是不斷翻新的,這也要求咱們按期的去抓這些新信息,可是這個「按期」該怎麼理解,也就是多長時間須要web 抓一次該頁面,其實這個按期也就是頁面緩存時間,在頁面的緩存時間內咱們再次抓取該網頁是沒有必要的,反而給人家服務器形成壓力。瀏覽器 就好比說我要抓取博客園首頁,首先清空頁面緩存,緩存 從Last-Modified到Expires,咱們能夠看到
相關文章
相關標籤/搜索