網站開發者對於網絡爬蟲的規範的公告,你能夠不遵照可能存在法律風險
,但儘可能去遵照python
Robots協議:在網頁的根目錄+robots.txt小程序
Robots協議的基本語法:網絡
#註釋,*表明全部,/表明根目錄 User-agent:* #user-agent表明來源 Allow:/ #表明運行爬取的內容 Disallow:/ #表明不可爬取的目錄,若是是/後面沒有寫內容,即是其對應的訪問者不可爬取全部內容
並非全部網站都有Robots協議
網站
若是一個網站不提供Robots協議,是說明這個網站對應全部爬蟲沒有限制code
類人行爲
能夠不參考robots協議,好比咱們寫的小程序訪問量不多,內容也少可是內容不能用於商業用途
開發
總的來講請準守Robots協議網站開發