機器學習預測2018年世界盃冠軍隊

參與文末話題討論,每日贈送異步圖書dom

 

——異步小編異步

 

麻省理工學院報道,他們開發了一種新型人工智能,用以預測世界盃走勢。而應用了一種名爲random-forest的計算方法,經過結合機器自我學習和常規統計,其準確率可能遠勝於傳統的統計方法。學習

在衆多資深評論員的預測中,巴西擁有16.6%的最高奪冠概率,德國和西班牙緊隨其後,奪冠機率分別有12.8%和12.5%。但random-forest認爲,西班牙擁有更高的奪冠概率,其捧杯機率爲17.8%,高於德國。這其中主要是因德國在16強中失利的可能性相對較大。在麻省理工的相關報告中,他們表示:人工智能

「西班牙比德國稍受AI青睞,這主要是由於德國在16強被爆冷的可能更高。」spa

近年來random-forest已經成爲一種分析大型數據集的可靠方法,其在運行分析的同時規避了其餘數據挖掘系統的一些缺陷。Random-forest的主要運算邏輯基於將來事件能夠由決策樹來決定這一原則,而決策樹經過分析每一組數據集來得出其相應分支的結果。翻譯

在麻省理工的報告中稱,影響西班牙和德國將來走向的重要因素是賽事自己的結構。他們指出,若是德國在小組階段出線,其在16強淘汰賽面臨的挑戰將遠大於西班牙,「翻車」的可能性不小。基於此點,random-forest經過計算,認爲德國進入1/4決賽的機率只有58%;相比之下,西班牙則有73%的機率進入八強。rest

固然,假如西班牙和德國都成功進入1/4決賽,那麼他們將有平等的機會最終捧杯。事件

random-forest中文翻譯爲隨機森林,隨機森林離不開決策樹,下面咱們就聊聊決策樹和random-forest是如何計算的。開發

 

決策樹模型雖然簡單明瞭,但單獨使用時效果並不理想。決策樹和邏輯迴歸配合使用,將兩種模型聯結成爲一個總體後,模型的效果獲得了明顯的提高。但因爲其中涉及兩種徹底不一樣的模型,在數學上很難給這種聯結方式一個比較理想的抽象,所以在工程實現上,很難作到自動尋找最優的模型組合。數學

爲了使模型間的組合更加自動化,最常規或者最成熟的作法就是隻使用一種模型,好比決策樹。經過某種方式將多個決策樹組合起來,使用它們的「集體智慧」來解決問題,學術上被稱爲集成方法(ensemble method)。

針對決策樹的集成方法一般能夠被分爲兩類:平均方法(averaging methods)和提高方法(boosting methods)。它們的表明模型分別是隨機森林和GBTs。

 

   1.1隨機森林

 

隨機森林(random forests)由n個決策樹組成,模型的預測結果等於各決策樹結果的某種「加權平均」,如圖1所示。

相關文章
相關標籤/搜索