前往http://book.dangdang.com/咱們能夠看到噹噹網上面的圖書種類很是豐富3d
咱們是計算機類圖書爲例子,那麼計算機類圖書頁面的URL http://book.dangdang.com/01.54.htm?ref=book-01-A是咱們的種子URLhtm
當咱們進入這個頁面能夠看到不少計算機類圖書,什麼都別說了,都抓取下來,而後在進入子品類頁面繼續抓取信息,咱們以程序涉及品類爲例blog
進來以後咱們能夠看到大量的圖書,並且在頁面上方咱們能夠看到100頁,可不止這麼一點還有99頁沒有顯示出來,咱們把這些圖書的URL所有抓取下來。咱們以《C++ primer plus》爲例下載
這個頁面有大量的圖書信息,包含圖書的價格,圖書的做者,出版社等信息,這都是咱們須要的信息,均可以抽取出來。程序
總結im
給程序一個圖書大類的URL,程序下載這個頁面以後發現大量的圖書小種類的URL,爬蟲去下載小種類圖書的信息後,發現頁面有不少圖書的URL,進入圖書的URL能夠抓取圖書的相關信息d3