python爬蟲--robots協議

robots exclusion standard 網絡爬蟲排除標準 基本概念 1.使用基本語法user-agent和disallow語法告知哪些內容可以爬取,爬蟲時會自動或人工識別協議內容再進行內容爬取。 2.協議存放在網站根目錄robots.txt中,無robots文件表示都可以爬蟲訪問。robots協議是建議性的,不遵守會存在法律風險。 3.爬取規模:request庫(網頁)<scrapy庫
相關文章
相關標籤/搜索