爬蟲開發知識入門基礎(2)

1、爬蟲解析 對於解析來說,對於 HTML 類型的頁面來說,常用的解析方法其實無非那麼幾種,正則、XPath、CSS Selector,另外對於某些接口,常見的可能就是 JSON、XML 類型,使用對應的庫進行處理即可。 這些規則和解析方法其實寫起來是很繁瑣的,如果我們要爬上萬個網站,如果每個網站都去寫對應的規則,那麼不就太累了嗎?所以智能解析便是一個需求。 智能解析意思就是說,如果能提供一個頁面
相關文章
相關標籤/搜索