R語言法國足球聯賽球員因子分析、主成分分析(FA,PCA)

原文 http://tecdat.cn/?p=4167編碼

數據集

fooball球員在場上的位置

數據來自國際足聯15歲的視頻遊戲 。遊戲的特色是在遊戲的各個方面評價每一個玩家的能力。原本,等級是量化變量(介於0和100之間),但咱們將它們轉換爲分類變量(咱們將討論爲何咱們稍後選擇這樣作)。全部能力都被編碼在4個位置:1.低/ 2.平均/ 3.高/ 4.很是高。spa

加載和準備數據

首先將數據集加載到data.frame中。重要的是要注意的是FactoMineR須要的因素。 3d

第二行也將整數列轉換爲因子。 code

數據分析

咱們的數據集包含分類變量。適當的數據分析方法是多重對應分析。 視頻

這產生了三個圖:類別和玩家的階乘軸上的投影,以及變量的圖形。讓咱們來看看這些圖中的第二個:blog

在試圖進一步分析以前,有些事情應該提醒咱們。這裏顯然有兩個玩家羣! 遊戲

解釋

顯然,咱們必須先將分析減小到必定數量的階乘軸。我最喜歡的方法來選擇軸的數量是肘法。咱們繪製特徵值的圖形:rem

> barplot(mca_no_gk $ eig $ eigenvalue)

特徵值圖

圍繞第三或第四個特徵值,咱們觀察到一個值的降低(這是MCA解釋的方差的百分比)。這意味着咱們分析中保留一個軸的邊際收益在第三或第四個以後較低。所以,咱們選擇將咱們的分析減小到前三個因子軸(咱們也能夠證實選擇4個軸)。如今讓咱們繼續解釋,從前兩個軸開始:get

> plot.MCA(mca_no_gk  )

在前兩個因子軸上投射 

咱們能夠經過在圖表上讀取彷佛最有表明性的變量和模態的名稱來開始分析。 數據分析

第一軸的最有表明性的能力是在軸的右側,攻擊能力 的能力較弱,左邊的能力很是強。所以,咱們的解釋是,軸心1根據他們的進攻能力(左側更好的攻擊能力,右側更弱)來分離玩家。咱們對第2軸進行一樣的分析,並得出結論:根據他們的防守能力來區分玩家:在圖形頂部會發現更好的防守者,而在圖形底部會發現弱防守者。

補充變量也能夠幫助確認咱們的解釋,特別是位置變量:

> plot.MCA(mca_no_gk,invisible = c(「ind」,「var」))

在前兩個階乘軸上投影補充變量

實際上,咱們在圖的左邊部分發現了攻擊位置(LW,ST,RW),並在圖的頂部看到了防守位置(CB,LB,RB)。

若是咱們的解釋是正確的,那麼圖表中第二個二元曲線上的投影就能夠表明球員的總體水平。最左邊的球員將會在左上角找到,而較弱的將會在右下角找到。有不少方法能夠檢查這個問題,例如查看「總體」變量的模式的預測。正如所料,「overall_4」位於左上角,「overall_1」位於右下角。此外,在補充變量的圖表中,咱們觀察到「法甲聯賽第一」(Ligue 1)位於左上方,而「Ligue 2」(第二聯)位於右下方。

> plot.MCA(mca_no_gk,invisible = c(「ind」,「var」),axes = c(2,3))

在第二和第三階乘軸上投影變量

最具表明性的第三軸的形式是技術上的弱點:技術能力較低的球員(運球,控球等)位於軸線的末端,而這些能力中成績最高的球員每每被髮如今軸的中心:

在第二和第三階乘軸上投影補充變量

咱們注意到在補充變量的幫助下,中場平均擁有最高的技術能力,而前鋒(ST)和後衛(CB,LB,RB)彷佛通常都不以球控技術着稱。

最後兩行使用Mathieu Valbuena在座標軸1和座標軸2上生成圖形,而後是2和3:

1號和2號軸與Mathieu Valbuena做爲補充 

2號和3號軸與Mathieu Valbuena做爲補充 

因此,馬蒂厄·瓦爾布納彷佛有很好的進攻技巧(左圖),但他也有很好的總體水平(他在第二個二分線上的投射比較高)。他也位於3號軸的中心,這表示他具備良好的技術能力。所以,咱們不該該感到驚訝的是,最適合他的位置(統計上固然是!)是中場位置(CAM,LM,RM)。再加上幾行代碼,咱們也能夠找到法國聯賽中最類似的球員:

咱們獲得:Ladislas Douniama,FrédéricSammaritano,Florian Thauvin,N'GoloKanté和Wissam Ben Yedder。

相關文章
相關標籤/搜索