網絡爬蟲與cookie簡介

1    web爬蟲是一種機器人,她們會遞歸對各種信息性web站點進行遍歷,獲取第一個web頁面,然後獲取那個頁面指向的所有頁面,然後是那些web頁面指向的所有頁面。以此類推,遞歸地追蹤這些web鏈接的機器人會沿着HTML超鏈接創建的網絡爬行,所以將其稱爲爬蟲。   2    Web站點與robot.txt       如果一個站點有robot.txt文件,那麼在訪問這個web站點上的任意URL之
相關文章
相關標籤/搜索