3天后,2018年俄羅斯世界盃開打,首場比賽是東道主俄羅斯對陣沙特阿拉伯,將於6月14日拉開序幕。算法
每屆世界盃最受關注的當屬決賽,上屆2014年巴西世界盃,東道主巴西隊意外爆冷,只得到第四名,無緣決賽。今年的世界盃,很多機構/研究人員給出預測:德國將和巴西爭奪冠軍,而且,巴西隊奪冠的機率更大些。api
綜合各類預測和民意調查,冠軍幾乎確定在巴西、德國和阿根廷之間展開,雖然強強爭鋒喜聞樂見,但彷佛也少了些驚喜。機器學習
機器學習和大數據的方法正愈來愈多地被用在比賽結果預測上,不只是世界盃,也不只是結果,球隊組成、戰術選擇和球員訓練都已經開始見到機器學習的身影。對於球迷和觀衆而言,人工智能也將展開一種全新的參與/觀看體育賽事的體驗。函數
機器學習預測結果:巴西得到冠軍學習
肯尼亞的投資銀行Genghis Capital Investment Bank的投資銀行分析師Gerald Muriuki,日前在Medium上公佈了他使用機器學習預測FIFA 2018的結果——巴西將贏得冠軍。大數據
這一結果跟微軟的AI和數據科學專家Sorin Peste的預測結果一致。人工智能
實際上,預測世界盃冠軍是一個典型的機器學習問題,你首先預測每場比賽的獲勝者,接着再預測小組賽、半決賽和決賽的冠軍。在這個過程當中,你須要進行數據整合、特徵建模和結果預測。所以,不少機器學習或數據科學家,都作過相似的項目。3d
Muriuki和Peste兩我的都是根據足球比賽的歷史數據,創建機器學習模型,模擬比賽,並預測這些比賽的結果。下面咱們分別來看看。blog
使用邏輯迴歸進行預測it
Muriuki使用了兩個來自Kaggle的數據集,包含了從1872年到2017年國際足球比賽的結果。他先分析了兩個數據集,作了一些特徵工程,選擇跟2018年世界盃最相關的特徵進行預測,再足控了一些數據加強。
在模型的選擇上,Muriuki用的是邏輯迴歸,一種分類器算法。邏輯迴歸經過使用邏輯函數預估機率,從而衡量分類因變量和一個或多個自變量之間的關係。簡單說,給定一組相關的數據後,邏輯迴歸可以預測結果(在世界盃的狀況下,就是預測是輸仍是贏)。
這是他的模型預測最初幾場比賽的結果:俄羅斯vs沙特,俄羅斯勝利;烏拉圭vs埃及,烏拉圭勝利;伊朗vs摩洛哥,平局。4天之後就能夠驗證這個結果是對仍是錯了。
16強的結果是這樣的:
四分之一決賽將在葡萄牙vs巴西,以及德國vs阿根廷之間展開。
最終巴西vs德國,巴西獲勝。
使用隨機森林進行預測
另外一方面,微軟的AI和數據科學專家Sorin Peste的預測過程則更加完善。在數據的選擇上,除了歷年世界盃結果,Peste還使用了歐洲盃、奧運會等大型比賽的數據,以及這些比賽的勝率分佈。