迴歸分析中R方和調整R方的區別

做者|ANIRUDDHA BHANDARI
編譯|VK
來源|Analytics Vidhya算法

概述

  • 理解R方和調整R方的概念
  • 瞭解R方和調整R方之間的關鍵區別

介紹

當我開始個人數據科學之旅時,我探索的第一個算法是線性迴歸。機器學習

在理解了線性迴歸的概念和算法的工做原理以後,我很是興奮地使用它並在問題陳述中作出預測。我相信大家大多數人也會這麼作的。可是一旦咱們創建了模型,下一步是什麼呢?函數

接下來是棘手的部分。一旦咱們創建了模型,下一步就是評估它的性能。毋庸置疑,模型評價是一項關鍵性的任務,它凸顯了模型的不足。性能

選擇最合適的評價指標是一個關鍵的任務。並且,我遇到了兩個重要的指標:除了MAE/MSE/RMSE,有R方和調整R方。這二者有什麼區別?我應該用哪個?學習

R方和調整R方是兩個評估指標,對於任何一個數據科學的追求者來講,這兩個指標可能會讓他們感到困惑。優化

它們對評估迴歸問題都很是重要,咱們將深刻了解和比較它們。它們各有利弊,咱們將在本文中詳細討論。spa

目錄

  • 殘差平方和
  • 瞭解R方統計量
  • 關於R方統計量的問題
  • 調整R方統計量

殘差平方和

爲了清楚地理解這些概念,咱們將討論一個簡單的迴歸問題。在這裏,咱們試圖根據「花在學習上的時間」來預測「得到的分數」。學習時間是咱們的自變量,考試成績是咱們的因變量或目標變量。.net

咱們能夠繪製一個簡單的迴歸圖來可視化這些數據。3d

黃點表明數據點,藍線是咱們預測的迴歸線。如你所見,咱們的迴歸模型並不能完美地預測全部的數據點。blog

那麼咱們如何利用這些數據來評估迴歸線的預測呢?咱們能夠從肯定數據點的殘差開始。

數據中某一點的 殘差是實際值與線性迴歸模型預測值之間的差值。

殘差圖告訴咱們迴歸模型是否適合數據。殘差的平方其實是迴歸模型優化的目標函數。

利用殘差值,咱們能夠肯定殘差的平方和,也稱爲殘差平方和或RSS。。

RSS值越低,模型預測值越好。或者咱們能夠這樣說——若是迴歸線使RSS值最小化,那麼迴歸線就是最佳擬合線。

但這其中有一個缺陷——RSS是一個尺度變量統計。因爲RSS是實際值和預測值的平方差之和,所以該值取決於目標變量的大小。

例子:

假設你的目標變量是銷售產品所產生的收入。殘差取決於目標的大小。若是收入大小以「1百盧比」爲單位計算的話(即目標多是一、二、3等),那麼咱們可能會獲得0.54左右的RSS(假設)。

可是若是收入目標變量以「盧比」爲單位(即目標值爲100、200、300等),那麼咱們可能會獲得一個更大的RSS,即5400。即便數據沒有變化,RSS的值也會隨着目標的大小而變化。這使得很難判斷什麼是好的RSS值。

那麼,咱們能想出一個更好的尺度不變的統計量嗎?這就是R方出現的地方。

R方統計量

R方統計量是一種尺度不變的統計量,它給出了線性迴歸模型解釋的目標變量的變化比例。

這可能看起來有點複雜,因此讓我在這裏把它分解。爲了肯定模型解釋的目標變化比例,咱們須要首先肯定如下內容-

平方和(TSS)

目標變量的總變化是實際值與其平均值之差的平方和。

TSS或總平方和給出了Y的總變化量。咱們能夠看到它與Y的方差很是類似。雖然方差是實際值和數據點之間差的平方和的平均值,TSS是平方和的總和。

既然咱們知道了目標變量的總變化量,咱們如何肯定模型解釋的這種變化的比例?咱們回到RSS。

殘差平方和(RSS)

正如咱們前面討論的,RSS給出了實際點到迴歸線距離的總平方。殘差,咱們能夠說是迴歸線沒有捕捉到的距離。

所以,RSS做爲一個總體給了咱們目標變量中沒有被咱們的模型解釋的變化。

R方

如今,若是TSS給出Y的總變化量,RSS給出不被X解釋的Y的變化量,那麼TSS-RSS給出了Y的變化,而且這部分變化是由咱們的模型解釋的!咱們能夠簡單地再除以TSS,獲得由模型解釋的Y中的變化比例。這是咱們的R方統計量!

R方=(TSS-RSS)/TSS

​ =解釋變化/總變化

​ =1–未解釋的變化/總變化

所以,R方給出了目標變量的可變性程度,由模型或自變量解釋。若是該值爲0.7,則意味着自變量解釋了目標變量中70%的變化。

R方始終介於0和1之間。R方越高,說明模型解釋的變化越多,反之亦然。

若是RSS值很低,這意味着迴歸線很是接近實際點。這意味着自變量解釋了目標變量的大部分變化。在這種狀況下,咱們會有一個很是高的R方值。

相反,若是RSS值很是高,則意味着迴歸線遠離實際點。所以,自變量沒法解釋目標變量中的大部分變量。這會給咱們一個很低的R方值。

因此,這就解釋了爲何R方值給出了目標變量的變化量。

關於R方統計量的問題

R方統計並不完美。事實上,它有一個主要缺陷。無論咱們在迴歸模型中添加多少變量,它的值永遠不會減小。

也就是說,即便咱們在數據中添加冗餘變量,R方的值也不會減小。它要麼保持不變,要麼隨着新的自變量的增長而增長。

這顯然沒有意義,由於有些自變量在肯定目標變量時可能沒有用處。調整R方處理了這個問題。

調整R方統計量

調整R方考慮了用於預測目標變量的自變量數量。在這樣作的時候,咱們能夠肯定在模型中添加新的變量是否會增長模型的擬合度。

讓咱們看看調整R方的公式,以便更好地理解它的工做原理。

在這裏,

  • n表示數據集中的數據點數量
  • k表示自變量的個數
  • R表明模型肯定的R方值

所以,若是R方在增長一個新的自變量時沒有顯著增長,那麼調整R方值實際上會減小。

另外一方面,若是增長新的自變量,咱們看到R方值顯著增長,那麼調整R方值也會增長。

若是咱們在模型中加入一個隨機自變量,咱們能夠看到R方值和調整R方值之間的差別。

如你所見,添加隨機獨立變量無助於解釋目標變量的變化。咱們的R方值保持不變。所以,給咱們一個錯誤的指示,這個變量可能有助於預測輸出。然而,調整R方值降低,代表這個新變量實際上沒有捕捉到目標變量的趨勢。

顯然,當迴歸模型中存在多個變量時,最好使用調整R方。這將使咱們可以比較具備不一樣數量獨立變量的模型。

結尾

在這篇文章中,咱們研究了R方統計值是什麼,它在哪裏不穩定。咱們還研究了調整R方。

但願這能讓你更好地理解事情。如今,你能夠謹慎地肯定哪些自變量有助於預測迴歸問題的輸出。

原文連接:https://www.analyticsvidhya.c...

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/

相關文章
相關標籤/搜索