爬蟲學習(一)

爲了從互聯網上批量獲取數據,研究了下spider,在此記錄一筆學習經歷。 今天先了解下robots協議,也叫爬蟲協議,全稱是「網絡爬蟲排除標準」(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。 比如打開 http://www.taobao.com/robots.txt 我們可以看到以下信息,表明淘寶不允許百度抓取/pr
相關文章
相關標籤/搜索