視頻地址:https://pan.baidu.com/s/1b25yNG算法
機器學習比賽入門條件網絡
1.過的去的code能力:Leetcode平臺機器學習
leetcode平臺能夠幫助咱們提升基本的算法實現能力,好比寫一個冒泡排序方法,寫出來的代碼簡潔高效ide
2.參與比賽:Data Fountain,Kaggle,biendata,Data castlepost
常常發佈一些比賽,能夠挑一些感興趣的參加學習
3.關注公衆號:閱讀代碼(高手的分享)或者論文; 推薦兩個@Datacatsle@愛可可測試
4.朋友和圈子(大腿),各類羣大數據
機器學習比賽流程編碼
這裏推薦的網址實際上是一個博主的博客:http://blog.csdn.net/sinat_22594309/article/details/68951145idea
在這個博主的博客中談到了不少有關於機器學習的經驗,加關注,之後能夠讀
1.特徵工程這個地方就是數據分析能力,有些人其實就是能夠可以很好的將數據變化獲得的新的特徵,好比說將數據從低維空間映射到核空間或者高維空間就能夠將本來沒法分類的數據分開,這就是很好的新特徵,咱們不能把全部的數據多懟到模型上,好比神經網絡仍是隨機森林,由於這些數據有可能量很大,或者很複雜,模型很難直接吃下這些數據獲得很好的結果,因此須要咱們先進行特徵工程這一步,構造出合適的特徵餵給咱們的模型,從而獲得更好的結果,這個就是很考驗想法的一個環節,每拿到一個題目,你能根據場景分析到什麼樣的idea能夠很好的構造特徵解決這個問題。有的人光是考規則懟就能拿到很好的數據競賽成績 好比天池比賽的規則大神 桑榆 天音。總之,特徵工程是核心競爭力,有經驗的人講數據進行log對數變化啊這種
2.模型選用:大數據比賽中經常使用的模型就是各類nn模型(cnn,rnn),隨機森林,boost,等等
3.模型融合,就是利用迭代,boosting的方式訓練模型,這種就是真的在比賽中才會用到的技巧,一點都不學術
機器學習比賽進階
我的學習經歷
我的比賽分享
在分析數據的時候,你以爲本身是有什麼想法可以讓你在這個比賽中脫穎而出的,好比在這個比賽中,經緯度數據的處理就很關鍵,幫助博主bird在比賽中去的關鍵性的勝利。首先經緯度是一個二維的數據,他們合在一塊兒表示一個位置,分開來是沒有太大意義的,所以只有將經度和緯度耦合在一塊兒成爲一個特徵,纔可以提供有意義的信息。直接將兩位數據扔給模型,模型是很難去吃透這個數據的
測試集與訓練集同分布的意思是:在官方沒有提供測試集的狀況下,能夠本身經過訓練集構造線下測試集,二者同分布。同分布很重要,由於咱們的數據都是統計數據,並且通常就算是大賽提供的 測試集也是跟訓練集同分布的。
關於DL embedding搜索到的一些資料:、
(感受嵌入層能夠必定程度的下降特徵工程的重要性?)
http://imgtec.eetrend.com/blog/10255(含有代碼,解釋,很是好的博客)
https://zhuanlan.zhihu.com/p/24252690
https://juejin.im/post/599183c6f265da3e2e5717d2
經過可視化,發現類似的地點自動聚類在一塊兒,說明博主利用geohash編碼將經緯度劃分爲小方塊的作法是正確的,將數據可視化是一種很是重要且好用的手段,讓咱們知道模型往哪一個方向走
最後一些話:
還有在這個比賽中,官方提供的最後的評價指標是MAPE(平均絕對 百分偏差)可是這個做爲評價直指標是不合理的其實,由於它只是一個相對值,
因此最後博主重寫了MSE做爲評價指標
準確率,召回率,F1 值、ROC,AUC、mse,mape評價指標:http://blog.csdn.net/a819825294/article/details/51699211