天池——安泰杯

賽題目標:經過用戶歷史訂單數據,預測用戶下一次購買的商品。測試

賽題數據:數據保存爲四個文件中,訓練數據(Antai_AE_round1_train_20190626.csv)、測試數據(Antai_AE_round1_test_20190626.csv)、商品信息(Antai_AE_round1_item_attr_20190626.csv)、提交示例(Antai_AE_round1_submit_20190715.csv)spa

  1. 訓練數據:用戶每次購買的商品id,訂單日期以及用戶國家標識code

  2. 測試數據:較於訓練數據,測試數據剔除了用戶須要預測最後一次購買記錄orm

  3. 商品信息:商品id、品類id、店鋪id和商品價格blog

  4. 提交示例:預測用戶購買商品Top30的item_id依機率從高到低排序,buyer_admin_id,predict 1,predict 2,…,predict 30排序

 

訓練集樣本量是 12868509
測試集樣本量是 166832
樣本比例爲: 77.13453653975256

源數據中都木有空值,可是因爲某些商品,不在商品表,所以缺乏了一些價格、品類信息。get

 

數據探查it

1.buyer_country_id 國家編號io

本次比賽給出若干日內來自成熟國家的部分用戶的行爲數據,以及來自待成熟國家的A部分用戶的行爲數據,以及待成熟國家的B部分用戶的行爲數據去除每一個用戶的最後一條購買數據,讓參賽人預測B部分用戶的最後一條行爲數據。form

  • 訓練集中有2個國家數據,xx國家樣本數10635642,佔比83%,yy國家樣本數2232867條,僅佔17%
  • 預測集中有yy國家的166832數據, 訓練集中yy國樣本數量是測試集中的13倍,如賽題目的所言,指望經過大量成熟國家來預測少許帶成熟國家的用戶購買行爲

2.buyer_admin_id 用戶編號

訓練集中用戶數量 809213
測試集中用戶數量 11398
同時在訓練集測試集出現的有6位用戶,id以下: [12647969, 13000419, 3106927, 12858772, 12929117, 12368445]

3.用戶記錄數分佈

用戶記錄數進行了一波簡單的探查:

  • 訓練集中記錄了809213個用戶的數據,其中id爲10828801的用戶拔得頭籌,有42751條購買記錄,用戶至少都有8條記錄
  • 測試集中記錄了11398個用戶的數據,其中id爲2041038的用戶勇冠三軍,有1386條購買記錄,用戶至少有7條記錄
  • 用戶記錄數大都都分佈在0~50,少許用戶記錄甚至超過了10000條

        Notes: 驗證集中用戶最少僅有7條,是由於最後一條記錄被抹去

       

用戶記錄數進一步探查結論:

* 無論是訓練集仍是驗證集,99%的用戶購買記錄都在50條內,這是比較符合正常邏輯 * TODO:對於發生大量購買行爲的用戶,後面再單獨探查,是否有其餘規律或疑似刷單現象

 

4.item_id 商品編號

商品表中商品數: 2832669
訓練集中商品數: 2812048
測試集中商品數: 104735
僅訓練集有的商品數: 2735801
僅測試集有的商品數: 28488
訓練集測試集共同商品數: 76247
訓練集中不在商品表的商品數: 7733
測試集中不在商品表的商品數: 313

初步數據發現:

  • 訓練集中出售最多商品是12691565,賣了112659次。
  • 測試集中出售最多商品是5595070 ,賣了112659次。
  • 大部分商品只有1次出售記錄,符合電商長尾屬性
  • 比較奇怪的yy國中,訓練集和測試集中熱銷商品並不太同樣

 

 

很明顯:

  • 訓練集中7月份數據遠小於8月份數據
  • 訓練集中xx國和yy國每日銷量趨勢十分類似,且在27日有個波峯

 

 

來自知乎:https://zhuanlan.zhihu.com/p/74661459

相關文章
相關標籤/搜索