微信公衆號文章採集方案

時間 2019-11-11

標籤微信公衆號文章採集方案欄目網絡爬蟲简体版

原文原文鏈接

方案一：基於搜狗入口

在網上能搜索到的公衆號文章採集相關的信息來看來看，這是最多、最直接、也是最簡單的一種方案。
通常流程是：git

搜狗微信搜索入口進行公衆號搜索
選取公衆號進入公衆號歷史文章列表
經過文章列表獲取文章連接，經過文章連接獲取文章內容
對文章內容進行解析入庫

採集過於頻繁的話，搜狗搜索和公衆號歷史文章列表訪問都會出現驗證碼。直接採用通常的腳本採集是沒法拿到驗證碼的。這裏可使用無頭瀏覽器來進行訪問,經過對接打碼平臺識別驗證碼。無頭瀏覽器可採用selenium。github

即使採用無頭瀏覽器一樣存在問題：瀏覽器

效率低下（實際上就是在跑一個完整的瀏覽器來模擬人類操做）
網頁資源瀏覽器加載難以控制，腳本對瀏覽器加載很難控制
驗證碼識別也沒法作到100%，中途極可能會打斷抓取流程

若是堅持使用搜狗入口並想進行完美採集的話只有增長代理IP。順便說一句，公開免費的IP地址就別想了，很是不穩定，並且基本都被微信給封了。服務器

除了面臨搜狗/微信的反爬蟲機制以外，採用此方案還有其餘的缺點：微信

沒法得到閱讀數、點贊數等用於評估文章質量的關鍵信息
沒法及時得到已經發布公衆號文章，只能做按期的重複爬取
只能得到最近十條羣發文章

方案二：對手機微信進行中間人攻擊

中間人攻擊本是某種黑客手法，用於截取客戶端與服務端之間的通訊信息。這種方案的思路是在手機微信和微信服務器之間搭建一個「HTTPS代理」，用於截獲手機微信獲取的公衆號文章信息。通常性步驟是：網絡

手機微信搜索一個公衆號
點擊進入公衆號歷史文章頁面
代理識別已經進入列表頁，進行內容截獲，同時根據實際狀況返回繼續下拉或爬取新的公衆號的js代碼

這種方案可以實現自動化的緣由是：加密

微信公衆號使用的是HTTPS協議，且內容未加密
微信公衆號文章列表和詳情本質上是個Web頁面，能夠嵌入js代碼進行控制

這種方案的優勢：lua

通常狀況下不會被屏蔽
能拿到點贊數和閱讀數等文章評估信息
能拿到公衆號所有的歷史文章

固然，也存在不少缺點：代理

須要一個長期聯網的實體手機
前期須要設置代理，工做量比較大
本質上仍是個輪查的過程，而不是實時推送
一樣有Web加載難以控制的風險，且本地網絡環境對其影響很是大
存在着微信接口發生變動代碼再也不適應的狀況

這種方案還存在着一些變種，好比：code

經過lua腳本控制公衆號搜索而不是靠代理返回嵌入的js代碼
經過GUI操做腳本控制PC端微信

但都存在「不能精確穩定控制」的缺點

方案三：網頁微信抓包分析

在被微信反爬蟲虐了很長時間以後，和同事大腦風暴尋找新的微信公衆號文章爬取方案。就分析有哪些能得到數據的入口。模糊記得網頁微信是有公衆號文章閱讀功能的，正好我曾把玩過一段時間我的微信機器人，主要使用的是ItChat這個Python包。它實現的原理就是對網頁微信進行抓包分析，彙總成我的微信接口，目標就是全部網頁微信能實現的功能它都能實現。。因此就有了一個初步的方案——經過ItChat讓微信公衆號文章本身推送過來。快下班的時候和同事提了一下，他也挺感興趣，次日就實現出來了驗證代碼（ItChat實現相應功能代碼很是簡短，內容解析部分以前就作了，能夠直接用）。

這種方案的主要流程是：