[任何爬蟲均只爲學習,不用於商業及其餘目的,侵權刪]html
一.概述dom
本次針對圖靈社區進行爬取免費的推薦書籍。佈局
通常進行爬蟲前須要先針對網站的dom域進行一次分析;肯定爬取的關鍵位置/關鍵字學習
二. 開始網站
1.先打開->"圖靈社區的免費圖書推薦頁",發現URL是這樣的:url
http://www.ituring.com.cn/book?tab=free&sort=vote
2.肯定URL狀況:spa
1.請求URLhttp://www.ituring.com.cn 2.參數book?tab=free&sort=vote 3.header,這個根據狀況能夠不須要
3.肯定初始進入頁的頁面佈局code
>a.注意底下的頁面數值htm
>b.注意紅框圈出的,咱們須要的數據blog
>c.第一個<a href>這個是咱們進入該書詳情的一個url地址,進入是這樣的:(介紹書的詳情,並有目錄結構)
>d.第一個<a title>是書的名稱
>e.第二個<a>上的文本是做者的名字
4.根據(3)獲取到的信息,進入(3-a)獲得的頁面數值,即翻頁數,這個的做用在於:第(2)點說的參數
咱們能夠打開F12開發者模式,選擇console來獲取數值,以下:
$(".PagedList-skipToPage")
5.根據(3)獲取到的信息,進入(3-b)獲取進入書籍詳細介紹的URL/書名等信息以下:
$(".block-books li")
界面以下:
6.根據(3)獲取到的URL進入詳情頁,分析詳情頁頁面
7.在詳情頁頁面咱們主要是想獲取目錄的URL,以下:
$(".table tr")
8.根據(7)獲取的目錄URL,進入內容詳情頁,分析內容詳情頁:
$(".article-detail").html()
三.總結
以上.就是網站分析的結果,下節會有演示展現~
即:代碼編寫的分析~
若是你喜歡,請關注公衆號哦~,謝謝~