爬蟲(3)_網站分析

時間 2019-12-10

標籤爬蟲網站分析欄目網絡爬蟲简体版

原文原文鏈接

[任何爬蟲均只爲學習，不用於商業及其餘目的，侵權刪]html

一.概述dom

本次針對圖靈社區進行爬取免費的推薦書籍。佈局

通常進行爬蟲前須要先針對網站的dom域進行一次分析；肯定爬取的關鍵位置/關鍵字學習

二. 開始網站

1.先打開->"圖靈社區的免費圖書推薦頁"，發現URL是這樣的：url

http://www.ituring.com.cn/book?tab=free&sort=vote

2.肯定URL狀況：spa

1.請求URLhttp://www.ituring.com.cn
2.參數book?tab=free&sort=vote
3.header，這個根據狀況能夠不須要

3.肯定初始進入頁的頁面佈局code

>a.注意底下的頁面數值htm

>b.注意紅框圈出的，咱們須要的數據blog

>c.第一個<a href>這個是咱們進入該書詳情的一個url地址，進入是這樣的：(介紹書的詳情，並有目錄結構)

>d.第一個<a title>是書的名稱

>e.第二個<a>上的文本是做者的名字

4.根據(3)獲取到的信息，進入(3-a)獲得的頁面數值，即翻頁數，這個的做用在於：第(2)點說的參數

咱們能夠打開F12開發者模式,選擇console來獲取數值，以下:

$(".PagedList-skipToPage")

5.根據(3)獲取到的信息，進入(3-b)獲取進入書籍詳細介紹的URL/書名等信息以下：

$(".block-books li")

界面以下：

6.根據(3)獲取到的URL進入詳情頁，分析詳情頁頁面

7.在詳情頁頁面咱們主要是想獲取目錄的URL，以下：

$(".table tr")

8.根據(7)獲取的目錄URL，進入內容詳情頁，分析內容詳情頁：

$(".article-detail").html()

三.總結

以上.就是網站分析的結果，下節會有演示展現~

即：代碼編寫的分析~

若是你喜歡，請關注公衆號哦~，謝謝~

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。