爬蟲的盜亦有道Robots協議

爬蟲的規定

Robots協議

網站開發者對於網絡爬蟲的規範的公告,你能夠不遵照可能存在法律風險,但儘可能去遵照python

Robots協議:在網頁的根目錄+robots.txt小程序

Robots協議的基本語法:網絡

#註釋,*表明全部,/表明根目錄
User-agent:* #user-agent表明來源
Allow:/ #表明運行爬取的內容
Disallow:/ #表明不可爬取的目錄,若是是/後面沒有寫內容,即是其對應的訪問者不可爬取全部內容

並非全部網站都有Robots協議網站

若是一個網站不提供Robots協議,是說明這個網站對應全部爬蟲沒有限制code

類人行爲能夠不參考robots協議,好比咱們寫的小程序訪問量不多,內容也少可是內容不能用於商業用途開發

總的來講請準守Robots協議網站開發

相關文章
相關標籤/搜索