微信小程序公衆號訂閱號,歷史熱門文章內容,留言閱讀數量點贊數量等數據均可以採集抓取,怎樣作?方法會很難嗎?給你幾個微信公衆號爬蟲,微信數據採集爬取so easy!
1.基於搜狗微信搜索的微信公衆號爬蟲
a.項目地址:https://github.com/Chyroc/Wec...
b.基於搜狗微信搜索的微信公衆號爬蟲接口開發,可獲取文章的臨時連接,獲取微信公衆號的最近10篇文章
2.微信公衆號爬蟲 (基於中間人攻擊的爬蟲核心實現,支持批量爬取公衆號全部歷史文章)
a.項目地址:https://github.com/sundy-li/w...
b.經過Man-In-Middle 代理方式獲取微信服務端返回,自動模擬請求自動分頁,抓取對應點擊的全部歷史文章
3.使用Python實現的微信公衆號爬蟲
a.項目地址:https://github.com/bowenpay/w...
4.爬取指定微信公衆號的所有歷史文章,使用 JS 實現
a.項目地址:https://github.com/iamyy/wech...
b.目前須要手動獲取 cookie 等驗證信息
5.基於搜狗微信入口的微信爬蟲程序,使用Python實現。
a.項目地址:https://github.com/CoolWell/w...
b.由基於phantomjs的python實現。 使用了收費的動態代理。 採集包括文章文本、閱讀數、點贊數、評論以及評論贊數。 效率:500公衆號/小時。 根據採集的公衆號劃分爲多線程,能夠實現並行採集。
6.Java 基於selenium抓取搜狗微信公衆號文章
a.項目地址:https://github.com/badaozhai/...
訪問接口須要的參數:
uin : 用戶對於公衆號的惟一ID, 原本是一個數字, 傳的是base64以後的結果;
key : 與公衆號和uin綁定, 過時時間大概是半小時;
pass_ticket: 另一個驗證碼, 與uin進行綁定;
req_id: 在文章裏HTML裏, 每次請求會不同, 用來構成獲取閱讀點贊接口的RequestBody, 一次有效;
獲取閱讀點贊接口有頻率限制, 測試的結果是一個微信號5分鐘能夠查看30篇文章的閱讀點贊。python