9 月 16 日晚間,周董在朋友圈發佈了最新單曲《說好不哭》python
發佈後,真的讓一波人哭了數據庫
一羣想搶鮮聽的小夥伴直接淚奔json
由於 QQ 音樂直接被搞崩了segmentfault
<!--more-->app
沒想到幹翻 QQ 音樂的不是網易雲音樂工具
也不是蝦米音樂測試
而是周董!url
周董成成功地憑一己之力幹翻了 QQ 音樂spa
那麼聽過周董新歌后的小夥伴都是怎麼評價的呢?code
這裏,咱們獲取了 QQ 音樂的近 20W 條評論數據進行分析
看看其中有哪些有趣的東西
在 QQ 網頁版直接搜索『說好不哭』
很容易就能找到單曲頁面
拉到頁面最下方
能夠看到評論的分頁查看按鈕
按下 F12 點擊第二頁
在請求流中就能夠看到對應的請求
其中能夠看到兩個重要參數:pagenum 和 pagesize
將請求 copy 到 Postman 中進行測試
發現能夠直接獲取到數據
連 Header 都不須要添加
這裏嘗試對請求參數進行了精簡
最終只須要以下幾個參數便可
從 Postman 中能夠直接獲取到對應的代碼
import requests url = "https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg" querystring = {"biztype":"1","topid":"237773700","cmd":"8","pagenum":"1","pagesize":"25"} response = requests.request("GET", url, params=querystring) print(response.text)
這裏是單頁評論的獲取
全部評論的獲取只需遞增 pagenum 便可
返回數據中有不少暫時不須要的字段
這裏咱們只取其中的用戶名、評論時間、評論內容、點贊數
對應以下字段
{ "nick": "丨那壹刻永遠消失\"\"", "praisenum": 1, "rootcommentcontent": "越聽越好聽怎麼回事!", "time": 1568729836, }
因爲數據量較大
這裏咱們暫時將數據存放在 Excel 中
一來無須依賴外部數據庫
二來可使用 Excel 對數據進行二次處理
數據存儲代碼以下:
def file_do(list_info, file_name): # 獲取文件大小 if not os.path.exists(file_name): wb = openpyxl.Workbook() page = wb.active page.title = 'jay' page.append(['暱稱','時間','點贊數','評論']) else: wb = openpyxl.load_workbook(file_name) page = wb.active for info in list_info: try: page.append(info) except Exception: print(info) wb.save(filename=file_name)
首先咱們對評論按小時區間進行彙總
因爲時間粒度比較小,這裏對時間粒度進行了一些處理
周董的新曲是在 9.16 號 23 點準時發佈的
能夠看出在發佈後的一個小時內(23:00-24:00)
評論數量達到了高峯
佔了總評論數的一半以上
另外看了一眼 9.16 23 點以前的評論也頗有意思
一種搬好小板凳嗑着瓜子坐等的既視感
詞雲生成的方法有不少
能夠用代碼生成
也能夠用一些在線工具
這裏我就使用了在線詞雲工具:wordart
後續能夠給你們單獨再普及一下
生成效果以下
周杰倫、杰倫字眼很明顯
還有大量跑來『打卡』的
『好聽』、『來了』、『哭了』、『愛了』
其中少不了的還有『青春』
另外『阿信』的出現估計給了不少人驚喜
咱們以點贊數對評論進行了排序
排名靠前的評論是以下一些
另外,QQ 音樂官方也會放出精彩評論
對比下能夠看出和咱們獲取到的數據是比較一致的
只不過官方並非按點贊個數進行排名的
看得出來這些排名靠前的大都是在回憶青春
這些評論之因此可以獲得你們的共鳴
也許他們的青春裏都有一個周杰倫吧
關注本公衆號,後臺回覆「2018」便可獲取傳智播客 2018 最新 Python 和 Java 教程。公衆號提供CSDN資源免費下載服務!