參加佛山互聯網協會建模大賽,主題爲植被類型預測,數據量分3個階段,10/15/15萬左右的放出,暨大教授在裏面加了噪音,但我EDA沒作得很好;所以只拿到26名;算法
訓練環境:WIN7,16G內存,Rstudio,xgboost,CV交叉驗證;耗時比較久,由於用for語句;
最高成績加權F1值只有0.69,Kaggle實測成績0.72;
腳本和訓練過程見下面notebook;網絡
連接描述機器學習
去聽前11名理論賽演講,其實你們用的都差很少,還有人會用並行結構;用spss作更多eda;學習
大賽規則:
「數創嶺南」職工技能賽賽題介紹與數據下載下載數據
1
賽題介紹測試
隨着計算能力、存儲空間、網絡的高速發展,人類所積累的數據量正在快速增加,而對特定數據的分類算法就顯得尤其重要。分類是一項很是有應用價值的技術之一,它的應用遍佈了社會中的各個領域,尤爲是對多標籤分類問題的解決方法,是機器學習中一個重要的研究領域。
2
數據集描述優化
本次大賽提供數據集反映的是不一樣地塊的植被類型狀況。經過海拔、坡度、到水源的距離、地塊位置等特徵項,對地塊植被的類型進行預測(7個類型)。數據集中共有 13個特徵,由 55 列數據組成。
以下圖所示:spa
字段名稱 數據類型 量度單位 描述
Elevation 定量數據 米 海拔高度
Aspect 定量數據 度 方位角
Slope 定量數據 度 坡度
Horizontal_Distance_To_Hydrology 定量數據 米 與最近水文特徵的水平距離
Vertical_Distance_To_Hydrology 定量數據 米 與最近水文特徵的垂直距離
Horizontal_Distance_To_Roadways 定量數據 米 與最近道路的水平距離
Ground position 定性數據 a-l 地塊位置
Hillshade_9am 定量數據 0至255的索引 早上9:00光的投射度(夏至)
Hillshade_Noon 定量數據 0至255的索引 正午光的投射度(夏至)
Hillshade_3pm 定量數據 0至255的索引 下午3:00光的投射度(夏至)
Horizontal_Distance_To_Fire_Points 定量數據 米 與最近燃火點的距離
Wilderness_Area (4個二元列) 定性數據 0或1(缺失/存在) 荒野地區等級
Soil_Type (40個二元列) 定性數據 0或1(缺失/存在) 土壤類型等級
Cover_Type (7種) 整數 0至7 地表覆蓋類型
3
數據集提供方式3d
這是一個模擬真實狀況的過程,數據是分階段提供的,而且包含約1‰~2‰的噪聲值。每一個階段,會提供不等數量的訓練和預測數據集,選手經過訓練數據進行建模、優化算法,並在測試集進行預測,每一個階段的預測準確率都將計入第一輪實操賽的總成績。
· 第一階段提供10萬條訓練數據,預測2萬條。時間:8月20日00:00—9月5日23:59;
· 第二階段提供12~15萬條訓練數據,預測3萬條。時間:9月6日00:00—9月21日23:59;
· 第三階段提供12~15萬條訓練數據,預測3萬條。時間:9月22日00:00—10月8日23:59。code
建議選手在考慮準確率的同時,須要考慮計算效率(運算時間),計算效率將做爲第三輪答辯賽的其中一個評分指標。最終總決賽評委會根據實操賽、理論賽成績以及現場答辯的表現對選手進行綜合評分。
4
評分標準blog
大賽平臺將自動計算每個階段測試數據集中預測分類的準確率。 本次採用宏平均值(Macro-averaging)做爲各階段的評價指標。 宏平均(Macro-averaging),是先對每個類統計指標值(F1-Score),而後再對全部類求加權(Qi=各種型樣本量佔比)平均值。 在第一輪實操賽的三個階段,將依據參賽隊伍的預測準確率(宏平均值)進行排名,準確率越高,則排名越靠前。參賽選手能夠不斷優化模型,經過平臺提交結果,天天最多提交3次。
· 第一輪實操賽最終總得分規則以下:
實操賽總排名按照以下公式計算:
(第一階段預測準確率30%+第二階段預測準確率35%+第三階段預測準確率*35%)
實操賽標準分 = 100-(100*P1-50)/N1,P1爲選手在實操賽的綜合排名,N1爲參加實操賽的選手人數。
5
競賽結果提交
請選手利用創建的模型對每階段提供的預測數據集中的地塊植被類型(BD列)
進行預測(7類),預測結果按以下格式保存成CSV格式提交。
預測結果(1/2/3/4/5/6/7)
預測結果(1/2/3/4/5/6/7)
預測結果(1/2/3/4/5/6/7)
......
預測結果(1/2/3/4/5/6/7)