Python3網絡爬蟲——爬蟲基本原理

時間 2020-12-28

原文原文鏈接

1、網絡爬蟲概述爬蟲就是請求網站並提取數據的自動化程序網絡爬蟲（Web Spider），又被稱爲網頁蜘蛛，是一種按照一定的規則，自動地抓取網站信息的程序或者腳本。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然後通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完爲止。 2、爬蟲基本流程