微信小程序內容數據採集抓取爬蟲

時間 2019-12-05

原文原文鏈接

微信小程序公衆號訂閱號，歷史熱門文章內容，留言閱讀數量點贊數量等數據均可以採集抓取，怎樣作？方法會很難嗎？給你幾個微信公衆號爬蟲，微信數據採集爬取so easy!
1.基於搜狗微信搜索的微信公衆號爬蟲
a.項目地址：https://github.com/Chyroc/Wec...
b.基於搜狗微信搜索的微信公衆號爬蟲接口開發，可獲取文章的臨時連接，獲取微信公衆號的最近10篇文章
2.微信公衆號爬蟲 (基於中間人攻擊的爬蟲核心實現,支持批量爬取公衆號全部歷史文章)
a.項目地址：https://github.com/sundy-li/w...
b.經過Man-In-Middle 代理方式獲取微信服務端返回,自動模擬請求自動分頁,抓取對應點擊的全部歷史文章
3.使用Python實現的微信公衆號爬蟲
a.項目地址：https://github.com/bowenpay/w...
4.爬取指定微信公衆號的所有歷史文章，使用 JS 實現
a.項目地址：https://github.com/iamyy/wech...
b.目前須要手動獲取 cookie 等驗證信息
5.基於搜狗微信入口的微信爬蟲程序，使用Python實現。
a.項目地址：https://github.com/CoolWell/w...
b.由基於phantomjs的python實現。使用了收費的動態代理。採集包括文章文本、閱讀數、點贊數、評論以及評論贊數。效率：500公衆號/小時。根據採集的公衆號劃分爲多線程，能夠實現並行採集。
6.Java 基於selenium抓取搜狗微信公衆號文章
a.項目地址：https://github.com/badaozhai/...

訪問接口須要的參數：
uin : 用戶對於公衆號的惟一ID, 原本是一個數字, 傳的是base64以後的結果；
key : 與公衆號和uin綁定, 過時時間大概是半小時；
pass_ticket: 另一個驗證碼, 與uin進行綁定；
req_id: 在文章裏HTML裏, 每次請求會不同, 用來構成獲取閱讀點贊接口的RequestBody, 一次有效；
獲取閱讀點贊接口有頻率限制, 測試的結果是一個微信號5分鐘能夠查看30篇文章的閱讀點贊。python