9 月 16 日晚間,周董在朋友圈發佈了最新單曲《說好不哭》數據庫
發佈後,真的讓一波人哭了app
一羣想搶鮮聽的小夥伴直接淚奔工具
由於 QQ 音樂直接被搞崩了測試
沒想到幹翻 QQ 音樂的不是網易雲音樂url
也不是蝦米音樂spa
而是周董!3d
周董成成功地憑一己之力幹翻了 QQ 音樂code
那麼聽過周董新歌后的小夥伴都是怎麼評價的呢?cdn
這裏,咱們獲取了 QQ 音樂的近 20W 條評論數據進行分析blog
看看其中有哪些有趣的東西
在 QQ 網頁版直接搜索『說好不哭』
很容易就能找到單曲頁面
拉到頁面最下方
能夠看到評論的分頁查看按鈕
按下 F12 點擊第二頁
在請求流中就能夠看到對應的請求
其中能夠看到兩個重要參數:pagenum 和 pagesize
將請求 copy 到 Postman 中進行測試
發現能夠直接獲取到數據
連 Header 都不須要添加
這裏嘗試對請求參數進行了精簡
最終只須要以下幾個參數便可
從 Postman 中能夠直接獲取到對應的代碼
import requests
url = "https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg"
querystring = {"biztype":"1","topid":"237773700","cmd":"8","pagenum":"1","pagesize":"25"}
response = requests.request("GET", url, params=querystring)
print(response.text)複製代碼
這裏是單頁評論的獲取
全部評論的獲取只需遞增 pagenum 便可
返回數據中有不少暫時不須要的字段
這裏咱們只取其中的用戶名、評論時間、評論內容、點贊數
對應以下字段
{
"nick": "丨那壹刻永遠消失\"\"",
"praisenum": 1,
"rootcommentcontent": "越聽越好聽怎麼回事!",
"time": 1568729836,
}複製代碼
因爲數據量較大這裏咱們暫時將數據存放在 Excel 中
一來無須依賴外部數據庫
二來可使用 Excel 對數據進行二次處理
數據存儲代碼以下:
def file_do(list_info, file_name):
# 獲取文件大小
if not os.path.exists(file_name):
wb = openpyxl.Workbook()
page = wb.active
page.title = 'jay'
page.append(['暱稱','時間','點贊數','評論'])
else:
wb = openpyxl.load_workbook(file_name)
page = wb.active
for info in list_info:
try:
page.append(info)
except Exception:
print(info)
wb.save(filename=file_name)複製代碼
首先咱們對評論按小時區間進行彙總
因爲時間粒度比較小,這裏對時間粒度進行了一些處理
周董的新曲是在 9.16 號 23 點準時發佈的
能夠看出在發佈後的一個小時內(23:00-24:00)
評論數量達到了高峯
佔了總評論數的一半以上
另外看了一眼 9.16 23 點以前的評論也頗有意思
一種搬好小板凳嗑着瓜子坐等的既視感
詞雲生成的方法有不少
能夠用代碼生成
也能夠用一些在線工具
這裏我就使用了在線詞雲工具:wordart
後續能夠給你們單獨再普及一下
生成效果以下
周杰倫、杰倫字眼很明顯
還有大量跑來『打卡』的
『好聽』、『來了』、『哭了』、『愛了』
其中少不了的還有『青春』
另外『阿信』的出現估計給了不少人驚喜
咱們以點贊數對評論進行了排序
排名靠前的評論是以下一些
另外,QQ 音樂官方也會放出精彩評論
對比下能夠看出和咱們獲取到的數據是比較一致的
只不過官方並非按點贊個數進行排名的
看得出來這些排名靠前的大都是在回憶青春
這些評論之因此可以獲得你們的共鳴
也許他們的青春裏都有一個周杰倫吧
關注本公衆號,後臺回覆「2018」便可獲取傳智播客 2018 最新 Python 和 Java 教程。
公衆號提供CSDN資源免費下載服務!