python爬蟲入門筆記(上)

一.爬蟲是什麼?爬蟲:一段自動抓取互聯網信息的程序。 價值:互聯網數據,爲我所用。如:新聞閱讀器,爆笑故事APP,Python技術文章大全。 二.簡單爬蟲架構: 1.爬蟲調度端:啓動爬蟲,運行爬蟲,監視爬蟲的運行情況 如圖: 三.url管理器:管理待抓取URL集合和已抓取URL集合 作用:防止重複抓取,循環抓取  實現方式:目前有三種實現方式 1.內存(個人/小型使用) 2.關係數據庫(永久存儲)
相關文章
相關標籤/搜索