網絡爬蟲

什麼是網絡爬蟲? 網絡爬蟲又叫蜘蛛,網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完爲止。如果把整個互聯網當成一個網站,那麼網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。所以要想抓取網絡上的數據,不僅需要爬蟲程序還需要一個可以接受」
相關文章
相關標籤/搜索