阿里音樂預測小結1——用戶分類與建模

分類
  • 藝人:選取08月總值較高的14個藝人做爲研究對象
  • 用戶:根據袁光PPT中對第11個線路畫的每一個用戶刷卡次數的統計表

咱們以用戶user_id=b15e8846dc61824c1242a6b36796117b(播放量最高的藝人)爲例,畫出該藝人的用戶183的播放量圖像:
(127135*0.995= 126499.3)以下是將用戶總小到大取前 126499個用戶的圖像:橫軸是用戶按播放量從小到大的編號,縱軸是用戶總播放量。

能夠看到用戶兩級分化,一部分用戶的播放量特別的小,不到50;另外一部分特色的大,甚至超高150。對此考慮對藝人的用戶分類爲 粉絲用戶隨機用戶2類。

通過摸索, 分類標準能夠定義爲使粉絲用戶的總播放量和隨機用戶的總播放量儘量對等。例如:
計算改藝人183天的總播放量是:115,3409, 設n=35,通常用戶a(a=users[users$play<n] )總播放量:61,7199; 此時粉絲用戶b總播放量爲:53,6210,人數;
此時總用戶人數是 12,7135, 通常用戶a有 12,0375,粉絲用戶b有6760個。

按用戶劃分後藝人每日的播放量(黑),通常用戶a(藍色)和粉絲用戶b(紅色)的點播量以下,如下綠色圈圈能夠看出分類把兩類用戶按日不一樣的播放行爲較好的顯示出來。
從圖中能夠看出不一樣的用戶點播趨勢是不一樣的!通常用戶上升,粉絲用戶降低!爲何會是這樣的趨勢呢?
userb15e8846dc61824c1242a6b36796117b_margin35_.png
分析緣由:因爲      藝人當日播放量=藝人當日用戶數*當日用戶平均點播量,分別統計2類用戶的每日平均點播量和每日用戶人數,做圖以下

一、每日平均點播量:
能夠看出粉絲用戶(紅)每日平均播放量呈現趨勢,大概是個二次多項式的降低趨勢,越到後降低越緩慢;這能夠解釋總播放量那張圖粉絲用戶是降低的
通常用戶(藍)相比於粉絲用戶每日平均播放量基本就是一個平穩的 正態序列!
userb15e8846dc61824c1242a6b36796117b_mean_margin35.png
二、每日用戶人數:
能夠看出全部序列都呈現出較強的週期性(一週7天的特徵)
通常用戶(藍)每日用戶數呈上升趨勢,這就是爲何總播放量那張圖通常用戶是上升的
粉絲用戶(紅)每日用戶人數先增多後減小; 相比於通常用戶,人數趨於平穩序列(極差大概是500)
userb15e8846dc61824c1242a6b36796117b_num_margin35.png








在觀察前14個藝人的分類用戶能夠 總結以下:
一、 原先藝人天天的總播放量能夠分解爲2類用戶每日播放量和 粉絲用戶和通常用戶的分類標準是儘可能使2類用戶的各自的總播放量相等,也就是播放量是對半的,但粉絲用戶人數遠小於通常用戶。目前前14個藝人用到的播放量分界點有15,20,35,100,150。 具體計算分界點能夠寫一個函數:(計算累加用戶播放量與總用戶播放放量一半的差值,去最小差值處播放量做爲分界點值)先按用戶播放量從大到小排序,而後循環累加用戶播放量(好比設定播放量爲1五、20,35,100,150之類的),計算目前累加值與用戶總播放量的一半的差值並記錄,每次循環記錄,取最小差值。(尚未實現!

以下橫軸是2類用戶的每日的用戶數,縱軸是每日的點播量,能夠看出分類基本是正確的!
userb15e8846dc61824c1242a6b36796117b_mean_num_margin35.png
二、2類用戶的每日播放量又能夠分解爲 每日平均用戶點播量和每日用戶人數的乘積,而且大體符合如下規律:
  • 每日平均點播量(無週期)
    一、粉絲用戶序列b1:有趨勢
    二、通常用戶序列a1:平穩
  • 每日用戶人數(有周期,7天)
    一、粉絲用戶序列b2 :平穩
    二、通常用戶序列a2 :有趨勢

所以咱們主要的預測對象就是:
一、 粉絲用戶的 每日平均點播量(b1)通常用戶的 每日用戶人數(a2),把2個時序分開作線性迴歸,a1和b2用均值代替(平穩序列),再代入公式:該play=a1*a2+b1*b2
二、週期,從每日用戶人數中獲取。

2.1如下是全部藝人的每個月每週總播放量統計,趨勢不是明顯,但能夠看出節假日(六、7天)與工做日(1~5天)有區別,節假日在最後三個月明顯播放量變低!(明天再看)

2.2袁光浩PPT展現的2個線路天天刷卡人數按一週七天的的變化規律, 建模方法是節假日、工做日單獨建模, 創建的自迴歸AR模型(時序模型,把 (t-1天) 因變量做爲第t天的自變量帶入計算) 以前理解有誤,補充學習了時序模型知識以後才發現AR模型在實際運用中是在迴歸模型的基礎上對殘差建模預測平穩序列的,而 袁光浩PPT右側圖中的模型並非AR模型,這裏指的是將客戶分類,分爲 常客(Yfreq)和 隨機客(Yrand),分別創建線性迴歸模型作預測再疊加!還有一點要注意的剔除異常數據,發現規律,簡化特徵!咱們目前特徵有點多!


補充:
    關於藝人分類: 以下圖所示用 複賽數據每一個藝人8月播放量均值 畫出散點圖,能夠很清晰的發現分類分界線是 15000,將其分爲2類:高播放量藝人和低播放量藝 人,同時以8月均值做爲60天天天的播放量,用評分公式計算徹底預測準確時F值爲 64296.57135,其中高播放量藝人F總和爲 31413.58217,低播放量藝人F爲 32882.98918,恰巧是總F值的一半,說明這個分組羣體是正確的,且2類藝人的評分都不可忽略!
 


相關文章
相關標籤/搜索