爬蟲搜索基礎篇（二）

時間 2019-12-06

原文原文鏈接

2.結構化數據html

JSON字符串的數據是最好處理的，由於只須要解析以後就可使用了，結構化數據基本都是這個類型。正則表達式

二．內容chrome

APP手機端的蓬勃興起，在必定程度上改變了人們獲取信息的習慣，以往都是打開電腦，在瀏覽器上面搜索本身須要的知識。如今只要有手機，有WIFI，搜索變得簡單，方便的多了。爬蟲除了檢索網頁上的內容以外，也會涉及到移動端的抓取請求，這裏要分爲兩部分說明。編程

網頁瀏覽器

不少新人都習慣性地認爲，咱們在網頁上看到的就是所有內容，其實並不單單侷限於網頁代碼裏面的包含的信息，新人在這一塊可能有碰到不少問題，好比：異步

若是是直接調用本地瀏覽器、要麼就是抓取一些包含了JS代碼的引擎，這兩種作法在處理大量數據抓取是很是低效的，到底呈如今網頁上的內容是如何實現的呢？主要分爲如下幾點：編輯器

.網頁包含的內容htm

網頁上的內容有一些是固定不變的，有一些內容是動態的，必須經過模板渲染生成，蜘蛛在獲取這類信息的時候，只須要搜索特定的HTML標籤便可獲得，很是簡單。開發

.JS代碼的內容字符串

在處理含有js代碼的網頁時，很容易檢索到空內容。這是由於全部的內容不只是html、同時還有js字符串，若是隻處理html代碼，那是沒法獲得信息的。這種狀況下必須用正則表達式找到包含內容的js代碼串，才能獲得實質的信息，不能單一的解析html。

.Ajax異步的內容

下圖是chrome瀏覽器，在頁面以分頁形式展示的時候，亦或是無刷新的狀況下，出現如下狀況就很正常。那咱們該如何分析呢？這裏簡要說明：

首先咱們要學會觀察數據，在頁面刷新的時候，數據在哪一步被加載進來的，若是是沒有意義的網頁，就不須要理會了。若是一旦找到核心異步請求的時候，直接抓取就好了。

剛學的想上手試試嗎？在線編程，碼農谷智能開發在線編輯器

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。