比賽的過程大體分爲:數據分析與探索;嘗試生成本身所須要的數據;提取特徵創建baseline;在baseline的基礎上進一步建模或者使用規則。併發
數據分析與探索——你能想到的別人也會想到,只有你發現的別人纔不容易發現!數據分析與探索是極其重要的,在整個數據挖掘過程當中應該佔據最多的時間,只有花時間作得足夠細纔會有好結果。這個過程是個統計過程,也最爲繁瑣。作好數據分析,有如下幾點須要格外注意:別騙本身了,只有數據不會說謊——必定不要主觀臆斷而放棄對某一個特徵、類別的深刻挖掘。在作統計時要作到足夠精細,例如在本次比賽中,咱們都想到了要對雙11進行修正,並且能夠說100%的人都想到了,但真正作好的實在是少之又少。大概錯誤有如下兩類:一是以爲雙11只是線上、淘寶、天貓等等的活動,所以與口碑流量應該無關(注意是應該,我相信絕大多數人都是或者有過這種想法),所以對這方面只是淺嘗輒止,例如隨便將當天銷量向上拉1%,顯然效果不會明顯,甚至降低,因而放棄等等。二是雖然對這個節日有關注,可是工做作的太粗糙。例如僅僅統計了2015年雙11全部店鋪銷量變化狀況,而後在採起上述拉昇方法。很明顯,效果很通常。然而事實上,雙11不只僅是打折促銷,更多的是年輕人們的光棍節。但即使沒有想到這一點,也不能作這樣粗糙的統計而就此完事。若進一步對每一個類別(其實並不是是每一個類別,由於只有少數類別才具備較多的店鋪)的在2015年雙11銷量進行分析。能夠發現西餐廳(約250家)在雙11會上漲約14%,線上反饋也證實了2016年也是如此。和個人臆想簡直是天差地別!優化
baseline的創建——在數據挖掘比賽中創建一個好的bsaline是極其重要的,baseline不必定要可以徹底解決問題,他可能只是解決問題的第一個步驟。所以baseline並非能夠隨意創建的。在我看來一個好的baseline至少得知足一下兩個條件:1.正確性,所謂正確性指的是你對baseline結果的自信程度,好的baseline在數據預處理不變的條件下,你要能自信的說,這個baseline的結果是合情合理又正確的。在這個baseline正確的基礎上纔有後文。2.基礎性,這個基礎性主要是指baseline上衍生出來的東西要多,這樣後面的提高空間纔會大。spa
併發處理——多個任務之間減小干擾。在baseline創建以後的下一步工做中不要使用太多baseline使用過的數據。這樣兩個任務之間的干擾沒那麼多,能夠同時優化baseline和創建下一步工做。不然後期容易陷入線上不動,線下也不動。想優化baseline又怕對後面形成影響。blog
線上反饋——結合線上反饋,手動處理一些樣本是必要的。在缺失值多,外部擾動大,一些預測會很是困難。這時候結合線上反饋是頗有必要的。數據分析