WordPress 胖鼠採集如何自定義採集規則方法。

時間 2019-11-20

標籤 wordpress 採集如何自定義規則方法欄目 Wordpress 简体版

原文原文鏈接

你們好。簡單的採集規則讓不懂代碼的同窗經過簡單學習掌握爬蟲技巧是胖鼠採集的核心

來源: 胖鼠採集（原文保持最新規則教程）

下面帶領你們來建立一個本身採集規則。html

視頻版本 https://v.youku.com/v_show/id_XNDI5MTQ2NzkwMA==.html?spm=a2h3j.8428770.3416059.1web

核心只須要填好五個參數學習

採集地址
採集範圍
採集規則
詳情頁採集範圍
詳情頁採集規則

地址: 顧名思義, 是咱們你們目標頁面的地址測試

採集範圍: 你要採集目標頁面的哪一塊數據網站

採集規則: 你要怎麼採spa

詳情采集範圍: 同上debug

詳情採集規則: 同上視頻

核心五部曲:htm

例子

採集目標地址: https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtmlblog

右鍵檢查便可看到頁面代碼

黃色區域就是咱們要採集的範圍，因此咱們採集範圍這麼寫

採集範圍： .down-nr>ul>li

解釋: 加上 ul li 會循環的採集每個塊。達到了咱們列表採集的目的

採集規則: a:eq(1)

解釋: a 選中a標籤 :eq(1) 是選中 li下面第1個a標籤，注: 數字是從0開始的。第一個a是0 第二個a是1 懂了吧？

詳情采集範圍 .sub-cont

解釋: 看圖 .sub-cont 包括了標題和內容。因此咱們選擇這個區域

詳情采集規則 title = .n_title

詳情采集規則 content = .sub-nr

解釋: 看圖 .n_title 是文章的標題

解釋: 看圖 .sub-nr 使文章的內容

完成的配置

解釋一下規則名目前默認三個值暫時夠用

a href 取 a標籤的 href(這個屬性都是跳轉地址) 值
xxx text 意指取 xxx的text(文本的意思)值
xxx html 意指去 xxx 那個區域的全部的html 通常用到取內容，內容比較多。且內容有排版。因此要拿到全部的原始html

標籤過濾怎麼用呢？給你們描述一下

a 就是去除掉全部a標籤保留a標籤的文本（去掉原文一些跳轉規則）
-a 就是刪除a標籤已經a標籤裏面全部的內容 (不建議使用，由於有些圖片是在a裏面的刪除a 圖片也沒了。)
-div 刪除全部div
-.class1 刪除內容中 class = class1 的標籤
- #aaaa 刪除文中 id = aaaa 的標籤
-p 同上
-b 同上
-span 同上
-p:first 刪除第一個 p標籤
-p:last 刪除最後一個 p標籤
就是這個規律...

看這裏這個只是一部分。你們自行百度，因此說胖鼠採集過濾功能很強大。

這個例子在導入默認例子按鈕裏面有。你們能夠導入本身品嚐！

還有一個debug功能要告訴你們

給你們實戰一下

上面這個debug例子是 debug 列表頁面的連接。你們要使用debug功能測試詳情頁面的標題內容是否都獲取正常了才保存這個匹配

一次花10分鐘配一次除了目標網站改版就能夠一直使用。但願你們花一點點時間學習一下。

有什麼不懂得來找胖鼠把。祝你們用的開心用的愉快！

胖鼠採集: QQ羣1: 454049736

胖鼠採集: QQ羣2: 846069514

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

WordPress 胖鼠採集 如何自定義採集規則方法。

你們好。簡單的採集規則讓不懂代碼的同窗經過簡單學習掌握爬蟲技巧是胖鼠採集的核心

來源: 胖鼠採集 （原文保持最新規則教程）

例子

WordPress 胖鼠採集如何自定義採集規則方法。

來源: 胖鼠採集（原文保持最新規則教程）