周董新歌搞崩QQ,抓取20W評論看看歌迷在說啥

9 月 16 日晚間,周董在朋友圈發佈了最新單曲《說好不哭》數據庫

發佈後,真的讓一波人哭了app

一羣想搶鮮聽的小夥伴直接淚奔工具

由於 QQ 音樂直接被搞崩了測試

沒想到幹翻 QQ 音樂的不是網易雲音樂url

也不是蝦米音樂spa

而是周董!3d

周董成成功地憑一己之力幹翻了 QQ 音樂code

那麼聽過周董新歌后的小夥伴都是怎麼評價的呢?cdn

這裏,咱們獲取了 QQ 音樂的近 20W 條評論數據進行分析blog

看看其中有哪些有趣的東西

1、數據獲取

一、請求分析

在 QQ 網頁版直接搜索『說好不哭』

很容易就能找到單曲頁面

說好不哭

拉到頁面最下方

能夠看到評論的分頁查看按鈕

分頁查看

按下 F12 點擊第二頁

在請求流中就能夠看到對應的請求

評論請求

其中能夠看到兩個重要參數:pagenumpagesize

將請求 copy 到 Postman 中進行測試

Postman測試

發現能夠直接獲取到數據

連 Header 都不須要添加

這裏嘗試對請求參數進行了精簡

最終只須要以下幾個參數便可

參數精簡

從 Postman 中能夠直接獲取到對應的代碼

import requests

url = "https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg"

querystring = {"biztype":"1","topid":"237773700","cmd":"8","pagenum":"1","pagesize":"25"}

response = requests.request("GET", url, params=querystring)

print(response.text)複製代碼

這裏是單頁評論的獲取

全部評論的獲取只需遞增 pagenum 便可

二、數據解析

返回數據中有不少暫時不須要的字段

這裏咱們只取其中的用戶名、評論時間、評論內容、點贊數

對應以下字段

{
    "nick": "丨那壹刻永遠消失\"\"",
    "praisenum": 1,
    "rootcommentcontent": "越聽越好聽怎麼回事!",
    "time": 1568729836,
}複製代碼

因爲數據量較大這裏咱們暫時將數據存放在 Excel 中

一來無須依賴外部數據庫

二來可使用 Excel 對數據進行二次處理

數據存儲代碼以下:

def file_do(list_info, file_name):
    # 獲取文件大小
    if not os.path.exists(file_name):
        wb = openpyxl.Workbook()
        page = wb.active
        page.title = 'jay'
        page.append(['暱稱','時間','點贊數','評論'])
    else:
        wb = openpyxl.load_workbook(file_name)
        page = wb.active
    for info in list_info:
        try:
            page.append(info)
        except Exception:
            print(info)
    wb.save(filename=file_name)複製代碼

2、數據可視化

一、各時段的評論數

首先咱們對評論按小時區間進行彙總

因爲時間粒度比較小,這裏對時間粒度進行了一些處理

評價人數走勢圖

周董的新曲是在 9.16 號 23 點準時發佈的

能夠看出在發佈後的一個小時內(23:00-24:00)

評論數量達到了高峯

佔了總評論數的一半以上

另外看了一眼 9.16 23 點以前的評論也頗有意思

一種搬好小板凳嗑着瓜子坐等的既視感

二、你們都在說什麼

詞雲生成的方法有不少

能夠用代碼生成

也能夠用一些在線工具

這裏我就使用了在線詞雲工具:wordart

後續能夠給你們單獨再普及一下

生成效果以下

詞雲

周杰倫、杰倫字眼很明顯

還有大量跑來『打卡』的

『好聽』、『來了』、『哭了』、『愛了』

其中少不了的還有『青春』

另外『阿信』的出現估計給了不少人驚喜

三、你們都點讚了哪些評論

咱們以點贊數對評論進行了排序

排名靠前的評論是以下一些

評論排名

另外,QQ 音樂官方也會放出精彩評論

熱心網友昀愷丶

涼城

蝸牛..

對比下能夠看出和咱們獲取到的數據是比較一致的

只不過官方並非按點贊個數進行排名的

看得出來這些排名靠前的大都是在回憶青春

這些評論之因此可以獲得你們的共鳴

也許他們的青春裏都有一個周杰倫吧

你的關注是對我最大的鼓勵!

關注本公衆號,後臺回覆「2018」便可獲取傳智播客 2018 最新 Python 和 Java 教程。

公衆號提供CSDN資源免費下載服務!

相關文章
相關標籤/搜索