爬蟲(3)_網站分析

[任何爬蟲均只爲學習,不用於商業及其餘目的,侵權刪]html

 一.概述dom

 本次針對圖靈社區進行爬取免費的推薦書籍。佈局

通常進行爬蟲前須要先針對網站的dom域進行一次分析;肯定爬取的關鍵位置/關鍵字學習

 

二. 開始網站

 1.先打開->"圖靈社區的免費圖書推薦頁",發現URL是這樣的:url

http://www.ituring.com.cn/book?tab=free&sort=vote

 2.肯定URL狀況:spa

1.請求URLhttp://www.ituring.com.cn
2.參數book?tab=free&sort=vote
3.header,這個根據狀況能夠不須要

 3.肯定初始進入頁的頁面佈局code

>a.注意底下的頁面數值htm

>b.注意紅框圈出的,咱們須要的數據blog

>c.第一個<a href>這個是咱們進入該書詳情的一個url地址,進入是這樣的:(介紹書的詳情,並有目錄結構)

 

>d.第一個<a title>是書的名稱

>e.第二個<a>上的文本是做者的名字

4.根據(3)獲取到的信息,進入(3-a)獲得的頁面數值,即翻頁數,這個的做用在於:第(2)點說的參數

咱們能夠打開F12開發者模式,選擇console來獲取數值,以下:

$(".PagedList-skipToPage")

 

 5.根據(3)獲取到的信息,進入(3-b)獲取進入書籍詳細介紹的URL/書名等信息以下:

$(".block-books li")

界面以下:

6.根據(3)獲取到的URL進入詳情頁,分析詳情頁頁面

7.在詳情頁頁面咱們主要是想獲取目錄的URL,以下:

$(".table tr")

8.根據(7)獲取的目錄URL,進入內容詳情頁,分析內容詳情頁:

$(".article-detail").html()

 

 三.總結

以上.就是網站分析的結果,下節會有演示展現~

即:代碼編寫的分析~

若是你喜歡,請關注公衆號哦~,謝謝~

相關文章
相關標籤/搜索