爬蟲學習（一）

時間 2021-01-22

原文原文鏈接

爲了從互聯網上批量獲取數據，研究了下spider，在此記錄一筆學習經歷。今天先了解下robots協議，也叫爬蟲協議，全稱是「網絡爬蟲排除標準」（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。比如打開 http://www.taobao.com/robots.txt 我們可以看到以下信息，表明淘寶不允許百度抓取/pr

>>阅读原文<<