Python網絡爬蟲《二》

1、網絡爬蟲的尺寸: 2、網絡爬蟲的限制: (1)來源審查:判斷User-agent進行限制 檢查來訪HTTP協議頭的User-Agent域,只響應瀏覽器或友好爬蟲的訪問; (2)發佈公告:Robots協議 3、Robots協議:網絡爬蟲排除標準 作用:網絡告知網絡爬蟲那些頁面可以抓取,那些不行; 顯示:在網站根目錄下robots.txt文件; 網絡爬蟲:自動或者人工識別robot.txt,再進行
相關文章
相關標籤/搜索