2.結構化數據html
JSON字符串的數據是最好處理的,由於只須要解析以後就可使用了,結構化數據基本都是這個類型。正則表達式
二.內容chrome
APP手機端的蓬勃興起,在必定程度上改變了人們獲取信息的習慣,以往都是打開電腦,在瀏覽器上面搜索本身須要的知識。如今只要有手機,有WIFI,搜索變得簡單,方便的多了。爬蟲除了檢索網頁上的內容以外,也會涉及到移動端的抓取請求,這裏要分爲兩部分說明。編程
網頁瀏覽器
不少新人都習慣性地認爲,咱們在網頁上看到的就是所有內容,其實並不單單侷限於網頁代碼裏面的包含的信息,新人在這一塊可能有碰到不少問題,好比:異步
若是是直接調用本地瀏覽器、要麼就是抓取一些包含了JS代碼的引擎,這兩種作法在處理大量數據抓取是很是低效的,到底呈如今網頁上的內容是如何實現的呢?主要分爲如下幾點:編輯器
.網頁包含的內容htm
網頁上的內容有一些是固定不變的,有一些內容是動態的,必須經過模板渲染生成,蜘蛛在獲取這類信息的時候,只須要搜索特定的HTML標籤便可獲得,很是簡單。開發
.JS代碼的內容字符串
在處理含有js代碼的網頁時,很容易檢索到空內容。這是由於全部的內容不只是html、同時還有js字符串,若是隻處理html代碼,那是沒法獲得信息的。這種狀況下必須用正則表達式找到包含內容的js代碼串,才能獲得實質的信息,不能單一的解析html。
.Ajax異步的內容
下圖是chrome瀏覽器,在頁面以分頁形式展示的時候,亦或是無刷新的狀況下,出現如下狀況就很正常。那咱們該如何分析呢?這裏簡要說明:
首先咱們要學會觀察數據,在頁面刷新的時候,數據在哪一步被加載進來的,若是是沒有意義的網頁,就不須要理會了。若是一旦找到核心異步請求的時候,直接抓取就好了。
剛學的想上手試試嗎?在線編程,碼農谷智能開發在線編輯器