IE-LAB網絡實驗室：Python爬蟲的工作原理

時間 2021-01-20

原文原文鏈接

網絡爬蟲，即Web Spider，是一個很形象的名字。把互聯網比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然後通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完爲止。如果把整個互聯網當成一個網站，那麼網絡蜘蛛就可以用這個原理把互聯

>>阅读原文<<