爬蟲實戰2—動態網頁的爬取

文章說明:本文是在學習一個網絡爬蟲課程時所作筆記,文章若有不對的地方,歡迎指出,積極討論。 html 1、網站結構分析及案例:馬蜂窩java (一)Robots.txt(網站架構圖,告訴spider哪些能夠爬或是不能夠爬)web 1.網站對爬蟲的限制(以馬蜂窩爲例:www.mafengwo.cn/robots.txt)正則表達式 2.利用sitemap來分析網站結構和估算目標網頁的規模json 2
相關文章
相關標籤/搜索