微信公衆號數據分析。

時間 2020-12-27

標籤程序員算法 json 微信 app ide 函數學習 url 欄目大數據简体版

原文原文鏈接

既然提到了公衆號的數據分析，那必然少不了公衆號的數據。程序員

本次，以我一直關注的一個公衆號「曹將」爲例。算法

經過抓包軟件Charles獲取請求信息，得以獲取公衆號數據。json

本次只獲取公衆號文章的部分信息。微信

對於文章的閱讀量、點贊數、讚揚數。能力有限，選擇放棄。app

/ 01 / 獲取分析ide

公衆號的文章接口能夠在電腦版的微信上獲取。函數

進入歷史消息，下滑頁面。學習

在Charles中找到接口數據。ui

根據接口數據構造請求，便能獲取公衆號文章了！url

/ 02 / 數據獲取

主要是獲取文章的標題、摘要、連接及發佈時間。

具體代碼以下。

import requests
import json
import time

def parse(__biz, uin, key, pass_ticket, appmsg_token="", offset="0"):
    """
    文章信息獲取
    """
    url = '?txe_eliforp/pm/moc.qq.nixiew.pm//:sptth'[::-1]
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.901.400 QQBrowser/9.0.2524.400",
    }
    params = {
        "action": "getmsg",
        "__biz": __biz,
        "f": "json",
        "offset": str(offset),
        "count": "10",
        "is_ok": "1",
        "scene": "124",
        "uin": uin,
        "key": key,
        "pass_ticket": pass_ticket,
        "wxtoken": "",
        "appmsg_token": appmsg_token,
        "x5": "0",
    }

    res = requests.get(url, headers=headers, params=params, timeout=3)
    data = json.loads(res.text)
    # 獲取信息列表
    msg_list = eval(data.get("general_msg_list")).get("list", [])
    for i in msg_list:
        # 去除文字連接
        try:
            # 文章標題
            title = i["app_msg_ext_info"]["title"].replace(',', '，')
            # 文章摘要
            digest = i["app_msg_ext_info"]["digest"].replace(',', '，')
            # 文章連接
            url = i["app_msg_ext_info"]["content_url"].replace("\\", "").replace("http", "https")
            # 文章發佈時間
            date = i["comm_msg_info"]["datetime"]
            print(title, digest, url, date)
            with open('article.csv', 'a') as f:
                f.write(title + ',' + digest + ',' + url + ',' + str(date) + '\n')
        except:
            pass
    # 判斷是否可繼續翻頁 1-能夠翻頁  0-到底了
    if 1 == data.get("can_msg_continue", 0):
        time.sleep(3)
        parse(__biz, uin, key, pass_ticket, appmsg_token, data["next_offset"])
    else:
        print("爬取完畢")

if __name__ == '__main__':
    # 請求參數
    __biz = '你的參數'
    uin = '你的參數'
    key = '你的參數'
    pass_ticket = '你的參數'
    # 解析函數
    parse(__biz, uin, key, pass_ticket, appmsg_token="", offset="0")