爬取噹噹網的圖書信息之工做流程介紹

前往http://book.dangdang.com/咱們能夠看到噹噹網上面的圖書種類很是豐富3d

 

咱們是計算機類圖書爲例子,那麼計算機類圖書頁面的URL  http://book.dangdang.com/01.54.htm?ref=book-01-A是咱們的種子URLhtm

當咱們進入這個頁面能夠看到不少計算機類圖書,什麼都別說了,都抓取下來,而後在進入子品類頁面繼續抓取信息,咱們以程序涉及品類爲例blog

 

進來以後咱們能夠看到大量的圖書,並且在頁面上方咱們能夠看到100頁,可不止這麼一點還有99頁沒有顯示出來,咱們把這些圖書的URL所有抓取下來。咱們以《C++ primer plus》爲例下載

這個頁面有大量的圖書信息,包含圖書的價格,圖書的做者,出版社等信息,這都是咱們須要的信息,均可以抽取出來。程序

總結im

  給程序一個圖書大類的URL,程序下載這個頁面以後發現大量的圖書小種類的URL,爬蟲去下載小種類圖書的信息後,發現頁面有不少圖書的URL,進入圖書的URL能夠抓取圖書的相關信息d3

相關文章
相關標籤/搜索