爬蟲實戰2—動態網頁的爬取

文章說明:本文是在學習一個網絡爬蟲課程時所做筆記,文章如有不對的地方,歡迎指出,積極討論。 一、網站結構分析及案例:馬蜂窩 (一)Robots.txt(網站架構圖,告訴spider哪些可以爬或是不可以爬) 1.網站對爬蟲的限制(以馬蜂窩爲例:www.mafengwo.cn/robots.txt) 2.利用sitemap來分析網站結構和估算目標網頁的規模 二、XML(EXtensible Marku
相關文章
相關標籤/搜索