賽題目標:經過用戶歷史訂單數據,預測用戶下一次購買的商品。測試
賽題數據:數據保存爲四個文件中,訓練數據(Antai_AE_round1_train_20190626.csv)、測試數據(Antai_AE_round1_test_20190626.csv)、商品信息(Antai_AE_round1_item_attr_20190626.csv)、提交示例(Antai_AE_round1_submit_20190715.csv)spa
訓練數據:用戶每次購買的商品id,訂單日期以及用戶國家標識code
測試數據:較於訓練數據,測試數據剔除了用戶須要預測最後一次購買記錄orm
商品信息:商品id、品類id、店鋪id和商品價格blog
提交示例:預測用戶購買商品Top30的item_id依機率從高到低排序,buyer_admin_id,predict 1,predict 2,…,predict 30排序
訓練集樣本量是 12868509
測試集樣本量是 166832
樣本比例爲: 77.13453653975256
源數據中都木有空值,可是因爲某些商品,不在商品表,所以缺乏了一些價格、品類信息。get
數據探查it
1.buyer_country_id 國家編號io
本次比賽給出若干日內來自成熟國家的部分用戶的行爲數據,以及來自待成熟國家的A部分用戶的行爲數據,以及待成熟國家的B部分用戶的行爲數據去除每一個用戶的最後一條購買數據,讓參賽人預測B部分用戶的最後一條行爲數據。form
2.buyer_admin_id 用戶編號
訓練集中用戶數量 809213
測試集中用戶數量 11398
同時在訓練集測試集出現的有6位用戶,id以下: [12647969, 13000419, 3106927, 12858772, 12929117, 12368445]
3.用戶記錄數分佈
用戶記錄數進行了一波簡單的探查:
Notes: 驗證集中用戶最少僅有7條,是由於最後一條記錄被抹去
用戶記錄數進一步探查結論:
* 無論是訓練集仍是驗證集,99%的用戶購買記錄都在50條內,這是比較符合正常邏輯 * TODO:對於發生大量購買行爲的用戶,後面再單獨探查,是否有其餘規律或疑似刷單現象
4.item_id 商品編號
商品表中商品數: 2832669
訓練集中商品數: 2812048
測試集中商品數: 104735
僅訓練集有的商品數: 2735801
僅測試集有的商品數: 28488
訓練集測試集共同商品數: 76247
訓練集中不在商品表的商品數: 7733
測試集中不在商品表的商品數: 313
初步數據發現:
很明顯: