和往年同樣,你們預測的冠軍不盡相同,但目前爭論的焦點集中在德國和巴西誰會奪冠上。html
據媒體報道,幾天前俄羅斯彼爾姆國立研究大學的大四學生製造的神經網絡,預測 德國隊將在 2018 年世界盃中奪冠,而世界盃前三名將是德國隊、巴西隊和阿根廷隊。聽說,這項預測的準確度超過 80%。api
而瑞銀則由一支 18 名分析師和編輯組成分析師團隊,運用計量經濟學,在衡量了球隊實力,資格記錄和往年世界盃表現等因素後,對比賽進行了 10000 次計算機模擬,預測了比賽的可能勝者。根據其 5 月 17 日發佈的報告,瑞銀預測今年世界盃冠軍將花落德國,獲勝可能性爲 24%,其次是巴西 19.8%,西班牙 16.1%,而常年失利的英格蘭以 8.5%的成績排名第四,法國、比利時和阿根廷也被視爲黑馬。微信
搞笑的是,瑞銀全球財富管理部門首席投資官 Mark Haefele 仍然堅持認爲英國有成爲冠軍的潛力。2014 年世界盃,瑞銀的預測團隊中由於有英國隊鐵桿球迷的存在,把數據分析結果排名第十的英國隊硬生生拗成了冠軍。看來真的是英國隊的死忠粉啊。網絡
然而,也有人用機器學習得出截然相反的預測結果——巴西將贏得冠軍。肯尼亞投資銀行 Genghis Capital Investment Bank 的投資銀行分析師 Gerald Muriuki,日前在 Medium 上公佈了他使用機器學習預測 FIFA 2018 的結果。機器學習
Muriuki 使用邏輯迴歸的方法,利用兩個 Kaggle 數據集(https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017/data ),以及 1930 年以來全部的參賽隊伍的賽事數據結果,來進行賽事預測。工具
環境和工具:jupyter notebook、numpy、pandas、seaborn、matplotlib 和 scikit-learn。學習
首先,將須要的庫和數據加載至數據框。大數據
通過加載庫、數據集、探索分析和特徵工程、範圍縮小至參加世界盃的球賽、建立數據框部署模型等步驟以後,這個模型就能夠進行預測了。網站
這是小組賽的部分預測結果:設計
這是 16 強的預測結果:
它還對四分之一決賽進行了預測:
半決賽預測:
總決賽預測:巴西打敗德國
但 Muriuki 坦誠這個模型還有改進的空間,如經過評測球隊隊員素質提升數據質量、用混淆矩陣分析模型預測問題所在,或者使用多個模型提升準確率。
KDnuggets 上一位球迷借鑑了 FiveThirtyEight 預測 2014 年世界盃的方法(https://fivethirtyeight.com/features/how-fivethirtyeights-world-cup-predictions-compare-to-other-ratings/ ),經過統計學得出了相反的預測結果:德國打敗巴西。
FIFA 世界排名(https://www.fifa.com/fifa-world-ranking/ranking-table/men/index.html ):全部 211 支國家足球隊的排名系統,得分基於 FIFA 認證過的全部國際賽事成績。這不是最好的系統,但已經夠用了。
Elo 排名:由 Dr. Arpad Elo 建立,原爲 FIDE 國際象棋比賽而設計。這個複雜的矩陣基於比賽類型計分,並考慮到雙方的目標分數差距,與 FIFA 的最大不一樣在於它考慮了友比如賽。
TransferMarkt 球隊價值:這個總部位於德國的網站提供關於足球的全部信息,包括每一個知名球員的價值,並列出了參賽國家球隊及其價值。據該網站估計,全部在列表中的球隊總價值約 106.4 億歐元。
投注賠率:使用投注比較網站 OddsChecker,採用每一個國家最大賠率。
收集完這些信息以後,該球迷進行了預測:
四種方法預測 2018 世界盃結果
KDnuggets 預測結果
若是 KDnuggets 的預測準確,如下就是本屆世界盃賽程的最終結果:德國、巴西、西班牙分別爲前三名。
英國《電訊報》進行的一項調查顯示,大多數人仍是看好德國贏得冠軍。
Sporting life 沒有預測誰會贏得冠軍,但猜想了一把參賽國家隊將在何時 out,好比認爲英格蘭會在四分之一決賽被淘汰。
不論是用了什麼方法,看起來多麼複雜,預測結果準不許還得另當別論。由於事實證實,不少看起來靠譜、頭頭是道的預測結果每每抓瞎得很。好比華爾街最靠譜的高盛,預測 2014 年世界盃時便被啪啪打臉。當時高盛由大名鼎鼎高盛經濟學家凱文·戴利(Kevin Daly)帶領的量化分析師團隊創建了自 1960 年以來正式國際足球比賽數據的模型,對其進行迴歸分析,經過一個叫「elo」的動態模擬系統「擲骰子」分析賽果,同時根據泊松模型(一種機率模型,用於預測進球而非預測勝負)預測小組賽的比分。結果呢,八強預測錯了三個(哥斯達黎加、比利時和哥倫比亞),四強錯了一個(西班牙),小組賽的賽果正確率只有 37.5%,還鐵定押寶巴西會奪冠,讓人啼笑皆非。
彭博社的方法與高盛相似,是在各國國家隊 FIFA 積分的基礎上,模擬了 1 萬次比賽結果,結果也與高盛相似,認爲西班牙會在和阿根廷打平後點球進入決賽,最終輸給巴西。然而尷尬了,西班牙早就在以前的比賽中已經 out 了......
德銀的模型更離譜,它的模型聽說綜合了 FIFA 排名、歷史戰績、球員構成和賭球賠率等因素,算出的奪冠機率前四名是巴西、德國、西班牙、法國,可是德銀的分析師在創建模型時,綜合了一個聽說是「歷史奪冠輪迴」的理論,最終,他們計算出的結果是巴西無緣 8 強,而英格蘭將奪冠。然而,英格蘭也早早打鋪蓋回家了......
一衆大佬在 2014 年世界盃預測中被無情打臉,然而,百度的預測卻出乎意料地相對準確。聽說,當時這家公司的數據科學家團隊搜索了距當時 5 年內全世界 987 支球隊(含國家隊和俱樂部隊)的 3.7 萬場比賽數據,同時與中國彩票網站樂彩網、歐洲必髮指數數據供應商 Spdex 進行數據合做,導入博彩市場的預測數據,創建了一個囊括 199972 名球員和 1.12 億條數據的預測模型,並在此基礎上進行結果預測。在大多數人預測巴西將奪冠的狀況下,仍然堅持德國將勝出。結果巴西意外爆冷,獎盃被德國拿走。
根據以上分析來看,今年不管是機器學習仍是大數據的方法,或多或少都借鑑了以往所使用過的方法,2014 年世界盃預測的結果你們也有目共睹。因此說,世界盃冠軍到底將花落誰家將受到不少因素的影響,好比天氣、球員狀態、場地狀況、任何意外事故,等等,若是真能料事如神,賭球的網站早就關門大吉了。而這也是世界盃的魅力和球迷爲之瘋狂的緣由所在,不到最後一刻,誰也不知道會不會發生驚天逆轉。
安靜吃瓜看球的諸位球友們,你最看好哪支隊伍奪冠呢?
參考連接:
https://www.kdnuggets.com/2018/06/football-world-cup-predictions.html
https://medium.com/@itsmuriuki/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576