In the Internet age, data is the most valuable resource, big data to lead the traditional industries, gave birth to new vitality. Almost all industries are embracing large data, the sports industry is also closely related, data capture, storage and analysis of the continuous progress of technology is a positive impact on all aspects of the sports industry.
業務挑戰編程
體育運用大數據主要體如今如下三個方面: 預測比賽結果和獎牌歸屬;更好地訓練運動員 。數據和模型驅動體育決策讓獲勝和成功變得更有可能,體育統計(Sports Analytics)成爲體育競爭的「殺手鐗」。網絡
具體服務機器學習
要在運動中有效地使用分析,咱們要知道如何處理數據、識別數據源、收集數據、組織和準備進行分析、從數據構建模型。學習
從面向體育組織的諮詢工做中,推進「數據科學即服務」。最終,實施咱們的想法和模式。測試
數據源準備大數據
隨着網絡的發展,數據來源豐富,有文本數據以及數字數據。經過爬蟲技術抓取網絡並利用應用程序編程接口(API),能夠從公共數據源中獲取不少信息。lua
構造spa
想要更好地瞭解在這些場景中大數據是如何進行預測性分析的,咱們須要考慮在預測比賽時所需處理的數據性質。3d
首先肯定關鍵指標,可用數據包括國別、賽事、成績、運動員姓名、年齡、過往表現記錄、賽場溫度、觀衆出席率、晝夜等。blog
劃分訓練集和測試集
肯定指標後,把數據分紅兩個子數據集,即訓練數據集和測試數據集。
數據洞察
球員薪酬狀況
職業運動隊在勞動力市場上相互競爭,而明星球員的勞動力供不該求。薪資上限是保持競爭平衡所必需的,工資也幫助球隊限制球員的支出。
美國最專業的運動員有薪資上限。NFL隊的2016年薪金上限爲5328萬美圓,平均工資約爲270萬美圓。NBA球隊在16賽季的薪金上限爲7000萬美圓,球隊的薪金上限以服務年限。例如,擁有十年經驗的勒布朗·詹姆斯,最高工資爲2300萬美圓。安東尼·戴維斯的平均工資爲2900萬美圓,是NBA球員中最高的 。2016年MLB的年薪最低爲505,700美圓。底特律老虎隊Miguel Cabrera(MLR)的MLB年薪最高爲3100萬美圓。
下圖顯示了2016年8月MLB,NBA和NFL的球員薪酬狀況。
NFL球員的平均工資約爲170萬美圓,中位數爲63萬美圓。 NBA球員的平均工資約爲510萬美圓,中位數爲280萬美圓。 MLB玩家的平均工資約爲410萬美圓,中位數爲110萬美圓。同時能夠看到明星球員的薪資遠高於普通球員,拉高了平均水平。
團隊支出和勝率的關係
從2016賽季初的團隊支出和在常規賽中勝率的關係圖中,咱們能夠看到團隊支出對是否能贏得比賽有直接影響。
出席觀衆和日期的關係
從中咱們能夠發現日期和出席狀況的關係,從而找到用於預測和評估出席率的模型。
球隊實力表現
根據15年到16年NBA常規賽的20項指標進行綜合分析,咱們對 NBA參賽球隊進行排序,評出最具實力的球隊。
建模
預測觀衆出席人數——線性模型
估計獲勝機率——蒙特卡羅模擬
當咱們發現勝率符合經驗分佈的時候,使用蒙特卡羅模擬方法來估計某個隊伍的獲勝機率。
預測結果
能夠看出,預測值的趨勢已經基本與真實趨勢保持一致。
模擬結果
經過對比賽日雙方球隊的表現模擬,咱們獲得下面的獲勝機率熱圖,從ROC曲線的表現來看,模擬效果理想。
展望
除了以上列舉的一些方法, 已經在嘗試更復雜的體育統計模型,如深度學習(Long Short-Term Memory網絡、卷積神經網絡(CNN))等;同時須要考慮到模型的可解釋性、可落地性和可擴展性、避免「黑箱」預測;還在嘗試採用混合的機器學習模型,好比GLM+SVR,GAM+ NNET等。
用數據驅動體育決策,這種看待體育的獨特視角讓咱們能更好地察覺趨勢、選取角度,同時幫助體育愛好者更深刻地理解他們喜好的運動隊。