周董新歌搞崩QQ，抓取20W評論看看歌迷在說啥

時間 2019-11-15

標籤新歌抓取 20w 評論看看歌迷說啥欄目騰訊简体版

原文原文鏈接

9 月 16 日晚間，周董在朋友圈發佈了最新單曲《說好不哭》python

發佈後，真的讓一波人哭了數據庫

一羣想搶鮮聽的小夥伴直接淚奔json

由於 QQ 音樂直接被搞崩了segmentfault

app

沒想到幹翻 QQ 音樂的不是網易雲音樂工具

也不是蝦米音樂測試

而是周董！url

周董成成功地憑一己之力幹翻了 QQ 音樂spa

那麼聽過周董新歌后的小夥伴都是怎麼評價的呢？code

這裏，咱們獲取了 QQ 音樂的近 20W 條評論數據進行分析

看看其中有哪些有趣的東西

1、數據獲取

一、請求分析

在 QQ 網頁版直接搜索『說好不哭』

很容易就能找到單曲頁面

拉到頁面最下方

能夠看到評論的分頁查看按鈕

按下 F12 點擊第二頁

在請求流中就能夠看到對應的請求

其中能夠看到兩個重要參數：pagenum 和 pagesize

將請求 copy 到 Postman 中進行測試

發現能夠直接獲取到數據

連 Header 都不須要添加

這裏嘗試對請求參數進行了精簡

最終只須要以下幾個參數便可

從 Postman 中能夠直接獲取到對應的代碼

import requests

url = "https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg"

querystring = {"biztype":"1","topid":"237773700","cmd":"8","pagenum":"1","pagesize":"25"}

response = requests.request("GET", url, params=querystring)

print(response.text)

這裏是單頁評論的獲取

全部評論的獲取只需遞增 pagenum 便可

二、數據解析

返回數據中有不少暫時不須要的字段

這裏咱們只取其中的用戶名、評論時間、評論內容、點贊數

對應以下字段

{
    "nick": "丨那壹刻永遠消失\"\"",
    "praisenum": 1,
    "rootcommentcontent": "越聽越好聽怎麼回事！",
    "time": 1568729836,
}

因爲數據量較大
這裏咱們暫時將數據存放在 Excel 中

一來無須依賴外部數據庫

二來可使用 Excel 對數據進行二次處理

數據存儲代碼以下：

def file_do(list_info, file_name):
    # 獲取文件大小
    if not os.path.exists(file_name):
        wb = openpyxl.Workbook()
        page = wb.active
        page.title = 'jay'
        page.append(['暱稱','時間','點贊數','評論'])
    else:
        wb = openpyxl.load_workbook(file_name)
        page = wb.active
    for info in list_info:
        try:
            page.append(info)
        except Exception:
            print(info)
    wb.save(filename=file_name)