一個簡單的爬蟲流程及實現

時間 2019-12-07

原文原文鏈接

爬蟲在數據採集方面有不少不錯的應用，互聯網就是數據的海洋，掌握好這一工具對與得到更多更宏觀的數據有很大的意義。html 一個簡單的爬蟲包括五個主要的部分node 1 spider_main 一個調度的邏輯redis 2 url_manager url的管理器，複雜url的得到和去重，這一部分深度的能夠利用redis的隊列，以及深度廣度優先原則數據庫 3 html_parser html的解析