python爬蟲--robots協議

時間 2021-01-11

標籤爬蟲 python 欄目 Python 简体版

原文原文鏈接

robots exclusion standard 網絡爬蟲排除標準基本概念 1.使用基本語法user-agent和disallow語法告知哪些內容可以爬取，爬蟲時會自動或人工識別協議內容再進行內容爬取。 2.協議存放在網站根目錄robots.txt中，無robots文件表示都可以爬蟲訪問。robots協議是建議性的，不遵守會存在法律風險。 3.爬取規模：request庫(網頁)<scrapy庫

>>阅读原文<<