爬取網站的背景調研

時間 2021-01-11

原文原文鏈接

在爬取一個網站之前我們首先需要對目標站點的規模和結構進行一定程度的瞭解，這裏可以通過對網站自身的robots.txt和Sitemap文件進行了解。 robots.txt文件讓爬蟲瞭解爬取該網站存在哪些限制，這裏以淘寶網爲例，如下所示：裏面列出了禁止的用戶代理Baiduspider、Yahoo！等等有些網站還會提供Sitemap文件用於定位網站最新的內容，不過目前很多網站都沒有了，估計是防止爬蟲

>>阅读原文<<