[轉載]機器學習預測世界盃:巴西奪冠

來源:Medium,Github,KDnuggets等算法

做者:李靜怡,克雷格

【新智元導讀】2018年世界盃開幕在即,誰會贏得最後的冠軍?機器學習預測是巴西,而統計方法則認爲德國會贏。

3天后,2018年俄羅斯世界盃開打,首場比賽是東道主俄羅斯對陣沙特阿拉伯,將於6月14日拉開序幕。

每屆世界盃最受關注的當屬決賽,上屆2014年巴西世界盃,東道主巴西隊意外爆冷,只得到第四名,無緣決賽。今年的世界盃,很多機構/研究人員給出預測:德國將和巴西爭奪冠軍,而且,巴西隊奪冠的機率更大些。

綜合各類預測和民意調查,冠軍幾乎確定在巴西、德國和阿根廷之間展開,雖然強強爭鋒喜聞樂見,但彷佛也少了些驚喜。

機器學習和大數據的方法正愈來愈多地被用在比賽結果預測上,不只是世界盃,也不只是結果,球隊組成、戰術選擇和球員訓練都已經開始見到機器學習的身影。對於球迷和觀衆而言,人工智能也將展開一種全新的參與/觀看體育賽事的體驗。

機器學習預測結果:巴西得到冠軍

肯尼亞的投資銀行Genghis Capital Investment Bank的投資銀行分析師Gerald Muriuki,日前在Medium上公佈了他使用機器學習預測FIFA 2018的結果——巴西將贏得冠軍。

這一結果跟微軟的AI和數據科學專家Sorin Peste的預測結果一致。

實際上,預測世界盃冠軍是一個典型的機器學習問題,你首先預測每場比賽的獲勝者,接着再預測小組賽、半決賽和決賽的冠軍。在這個過程當中,你須要進行數據整合、特徵建模和結果預測。所以,不少機器學習或數據科學家,都作過相似的項目。

Muriuki和Peste兩我的都是根據足球比賽的歷史數據,創建機器學習模型,模擬比賽,並預測這些比賽的結果。下面咱們分別來看看。

使用邏輯迴歸進行預測![]



Muriuki使用了兩個來自Kaggle的數據集,包含了從1872年到2017年國際足球比賽的結果。他先分析了兩個數據集,作了一些特徵工程,選擇跟2018年世界盃最相關的特徵進行預測,再足控了一些數據加強。

在模型的選擇上,Muriuki用的是邏輯迴歸,一種分類器算法。邏輯迴歸經過使用邏輯函數預估機率,從而衡量分類因變量和一個或多個自變量之間的關係。簡單說,給定一組相關的數據後,邏輯迴歸可以預測結果(在世界盃的狀況下,就是預測是輸仍是贏)。

這是他的模型預測最初幾場比賽的結果:俄羅斯vs沙特,俄羅斯勝利;烏拉圭vs埃及,烏拉圭勝利;伊朗vs摩洛哥,平局。4天之後就能夠驗證這個結果是對仍是錯了。

16強的結果是這樣的:

四分之一決賽將在葡萄牙vs巴西,以及德國vs阿根廷之間展開。

最終巴西vs德國,巴西獲勝。

使用隨機森林進行預測

另外一方面,微軟的AI和數據科學專家Sorin Peste的預測過程則更加完善。在數據的選擇上,除了歷年世界盃結果,Peste還使用了歐洲盃、奧運會等大型比賽的數據,以及這些比賽的勝率分佈。

此外,Peste還考慮了比賽的地址,也便是在主場、客場仍是在雙方都無關的中立場所,以及比賽是否「friendly」,在踢friendly比賽時,目的不是爲了贏球,而是爲了觀察對手的球員和策略。

在模型的選擇上,Peste用的是隨機森林(深度500),一種根據呈現給它的特徵生成多個決策樹的算法,而且每一個單獨的樹對每一個新輸入向量的結果「投票」。隨機森林的速度快,至關準確,能夠對泛化偏差進行無偏估計,所以不須要交叉驗證。

下圖展現了迭代1000次後的結果,巴西獲勝,阿根廷第二。

統計的方法:德國戰車險勝巴西

固然,除了機器學習,還有更多預測是使用大數據方法。KDnuggets上一位狂熱球迷用統計的方法,預測德國隊會奪冠。他的操做步驟以下:

收集信息:

國際足聯世界排名:這是全部211支國家足球隊的排名系統。使用積分系統,積分是基於全部FIFA承認的國際比賽的結果。然而,這並非最好的系統,並且有不少缺點。

Elo評級:該系統最初是爲國際象棋聯合會FIDE開發的,目的是給棋手打分。它的複雜矩陣根據比賽的類型分配點數,並考慮到雙方的淨勝球差別。它和國際足聯的主要不一樣之處在於,它也統計了友誼賽的數量。

TransferMarkt team value:這個總部位於德國的網站提供了關於足球各個方面的信息,包括每一個知名球員的估計市值。他們列出了參與國的名單和他們的團隊價值。

投注賠率:使用投注比較網站OddsChecker,採用每一個國家最慷慨的賠率。

TransferMarkt的數字是歐元,而FIFA和Elo有他們本身的評級系統,投注賠率是分數。做者將每個系統都標準化,使它們具備可比性。在統計中,標準分數(也稱爲z分數/值,正常分數或標準化值)是數值與平均值不一樣的標準誤差數。

2018年世界盃,四個流行的預測來源

KDnuggets預測的z分數

若是KDnuggets的預測是正確的,那麼世界盃小組賽的結果會是下面這樣的:

研究結果引出了一些有趣的結論:

德國排名第一,但僅略高於巴西。緊隨其後的是西班牙和法國。

Elo排名系統和投注概率看起來最類似,都列出了相同的前五名(上面提到的四個球隊和阿根廷)。

在整個體系中有一些鮮明的對比,其中最引人注目的是祕魯在國際足聯(FIFA)和Elo排名中z分數都排在第10位,而在TrasferMarkt的球隊價值排名卻在第30位。

民意調查:德國、巴西、阿根廷最受歡迎

除了KDnuggets上的預測,還有諸多世界盃賽前的其餘預測:

《每日電訊報》對每支球隊進行了普遍的分析,最後進行了一項投票,讓讀者預測冠軍,投票結果以下:



此外,據中新網報道,俄羅斯彼爾姆國立研究大學學生維克多•扎科派洛創建了一個能預測2018年世界盃冠軍的神經網絡,神經網絡綜合各項參數進行分析計算後得出結論稱,世界盃前三名將是德國隊、巴西隊和阿根廷隊。

四年前,巴西在家門口以1:7輸給了德國隊,創下了自1920年0:6輸給烏拉圭以來最大的世界盃輸球記錄,震驚全國人民。最終,德國隊奪得了當年的世界盃冠軍。

今年的俄羅斯世界盃,諸多機構預測巴西和德國將上演冠軍大戰。巴西可否一雪前恥,德國可否成功衛冕?咱們拭目以待。
相關文章
相關標籤/搜索