1、多元迴歸分析簡介網絡
用迴歸方程定量地刻畫一個應變量與多個自變量間的線性依存關係,稱爲多元迴歸分析(multiple linear regression),簡稱多元迴歸(multiple regression)。函數
多元迴歸分析是多變量分析的基礎,也是理解監督類分析方法的入口!實際上大部分學習統計分析和市場研究的人的都會用迴歸分析,操做也是比較簡單的,但可以知道多元迴歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會迴歸分析的基本思想和一些實際應用手法!學習
迴歸分析的基本思想是:雖然自變量和因變量之間沒有嚴格的、肯定性的函數關係,但能夠設法找出最能表明它們之間關係的數學表達形式。3d
2、多元迴歸線性分析的運用blog
具體地說,多元線性迴歸分析主要解決如下幾方面的問題。ip
(1)肯定幾個特定的變量之間是否存在相關關係,若是存在的話,找出它們之間合適的數學表達式; 數據分析
(2)根據一個或幾個變量的值,預測或控制另外一個變量的取值,而且能夠知道這種預測或控制能達到什麼樣的精確度;數學
(3)進行因素分析。例如在對於共同影響一個變量的許多變量(因素)之間,找出哪些是重要因素,哪些是次要因素,這些因素之間又有什麼關係等等。產品
在運用多元線性迴歸時主要須要注意如下幾點:io
首先,多元迴歸分析應該強調是多元線性迴歸分析!強調線性是由於大部分人用迴歸都是線性迴歸,線性的就是直線的,直線的就是簡單的,簡單的就是因果成比例的;理論上講,非線性的關係咱們均可以經過函數變化線性化,就好比:Y=a+bLnX,咱們能夠令 t=LnX,方程就變成了 Y=a+bt,也就線性化了。
第二,線性迴歸思想包含在其它多變量分析中,例如:判別分析的自變量其實是迴歸,尤爲是Fisher線性迴歸方程;Logistics迴歸的自變量也是迴歸,只不過是計算線性迴歸方程的得分進行了機率轉換;甚至因子分析和主成分分析最終的因子得分或主成分得分也是迴歸算出來的;固然,還有不少分析最終也是迴歸思想!
第三:什麼是「迴歸」,迴歸就是向平均靠攏。
第四:若是你用線性迴歸方式去解釋過去,你只能朝着一個趨勢繼續,但將來對過去的偏離有無數種可能性;
第五:線性迴歸方程歸入的自變量越多,越應該可以反應現實,但解釋起來就越困難;
第六:統計學家每每追求的是簡約的模型和更高的解釋度,每每關注模型R平方,共線性和迴歸診斷問題;
第七:市場研究人員每每注重模型的解釋合理性,是否與預設的直覺一直,是否支持了個人市場假設等;
多元線性迴歸分析的主要目的是:解釋和預測
3、多元迴歸模型的創建
模型的表達形式以下:
在此徵用一個網絡上的例子來作詳細講解:
假設咱們收集了100個企業客戶經理對我產品的整體滿意度和分項指標的滿意度評價,我指望知道,什麼分項指標對我整體滿意度有重要影響,它的改進更可以提高整體滿意度;若是創建預測模型,我指望知道了分項指標的評價就可以預測整體滿意度數值;
在SPSS中選擇迴歸分析後,把X10做爲因變量,X1到X7做爲自變量,選擇相應的統計參數和輸出結果:
R平方是咱們最須要關注的,該值說明了方程的擬合好壞,R平方=0.80很是不錯了,說明:1)整體滿意度的80%的變差均可以由7個分項指標解釋,或者說,7個分項指標能夠解釋整體滿意度80%的變差!2)R平方若是太大,你們不要高興太早,社會科學不多有那麼完美的預測或解釋,必定存在了共線性!
方程分析表的顯著性代表了迴歸具備解釋力!
線性迴歸方程給出可預測的計算係數,可是,社會科學不多進行預測,重要的是解釋;
這裏要注意的是若是自變量的測量尺度是統一的話,咱們能夠直接比較係數的大小,可是若是自變量的測量尺度不統一的話,咱們必須看標準化迴歸係數,標準化迴歸係數去掉的量綱,且反應了重要性!咱們就是須要重要性測量!
固然,這個時候,研究人員應該關注每一個指標的迴歸係數是否真的等於零,要進行假設檢驗!
4、多元迴歸模型的顯著性檢驗
上文中有提到,若R平方過大,擬合優度很好的狀況下,可能存在多重共線性,而多重共線性即是多元迴歸模型產生偏差的主要緣由。
形成多重共線性的緣由有一下幾種:
一、解釋變量都享有共同的時間趨勢;
二、一個解釋變量是另外一個的滯後,兩者每每遵循一個趨勢;
三、因爲數據收集的基礎不夠寬,某些解釋變量可能會一塊兒變更;
四、某些解釋變量間存在某種近似的線性關係;
判別:
一、發現係數估計值的符號不對;
二、某些重要的解釋變量t值低,而R方不低
三、當一不過重要的解釋變量被刪除後,迴歸結果顯著變化;
檢驗:
一、相關性分析,相關係數高於0.8,代表存在多重共線性;但相關係數低,並不能表示不存在多重共線性;
二、vif檢驗;
三、條件係數檢驗;
解決方法:
克服主成分分析的統計方式有主成分迴歸、嶺迴歸、逐步迴歸,其定義分別爲:
主成分迴歸:主成分分析法做爲多元統計分析的一種經常使用方法在處理多變量問題時具備其必定的優越性,其降維的優點是明顯的,主成分迴歸方法對於通常的多重共線性問題仍是適用的,尤爲是對共線性較強的變量之間。當採起主成分提取了新的變量後,每每這些變量間的組內差別小而組間差別大,起到了消除共線性的問題。
嶺迴歸:嶺迴歸分析其實是一種改良的最小二乘法,是一種專門用於共線性數據分析的有偏估計迴歸方法。嶺迴歸分析的基本思想是當自變量間存在共線性時,解釋變量的相關矩陣行列式近似爲零,X'X是奇異的,也就是說它的行列式的值也接近於零,此時OLS估計將失效。此時可採用嶺迴歸估計。嶺迴歸就是用X'X+KI代替正規方程中的X'X,人爲地把最小特徵根由minli提升到min(li+k),但願這樣有助於下降均方偏差。
逐步迴歸:逐步迴歸(Stepwise Regression)是一種經常使用的消除多重共線性、選取「最優」迴歸方程的方法。其作法是將逐個引入自變量,引入的條件是該自變量經F檢驗是顯著的,每引入一個自變量後,對已選入的變量進行逐個檢驗,若是原來引入的變量因爲後面變量的引入而變得再也不顯著,那麼就將其剔除。引入一個變量或從迴歸方程中剔除一個變量,爲逐步迴歸的一步,每一步都要進行F 檢驗,以確保每次引入新變量以前回歸方程中只包含顯著的變量。這個過程反覆進行,直到既沒有不顯著的自變量選入迴歸方程,也沒有顯著自變量從迴歸方程中剔除爲止。
處理多重共線性的原則:
一、 多重共線性是廣泛存在的,輕微的多重共線性問題可不採起措施;
二、 嚴重的多重共線性問題,通常可根據經驗或經過分析迴歸結果發現。如影響係數符號,重要的解釋變量t值很低。要根據不一樣狀況採起必要措施。
三、 若是模型僅用於預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用於預測時,每每不影響預測結果;
5、總概模型圖