實用乾貨 | 什麼是虛擬變量?如何設置?





01

什麼是虛擬變量?



虛擬變量又稱啞變量,是人爲設定的用於將分類變量引入模型中的方法。微信



02

爲何要使用虛擬變量



在迴歸分析中,自變量X既能夠是定量數據也能夠定類數據。迴歸分析計算時是將全部自變量X視爲數字,但當數據爲定類數據時,此時數字表明類別,數字大小自己沒有比較意義。所以,這類數據在作迴歸分析時,須要設置成啞變量才能歸入迴歸分析正確分析數據。編輯器



03

如何使用虛擬變量



用一個例子說明:研究性別和工齡對基本工資的影響狀況。flex


工齡是定量數據;性別爲二分類數據,於是分析時性別不能直接放入迴歸模型,正確作法是將變量轉化成取值爲1和0的啞變量。spa



性別分爲兩類,於是須要設置2個虛擬變量(2列),分別表示男性和女性兩個類別。.net


若是是男性,‘性別_男’虛擬變量取值爲1,‘性別_女’虛擬變量取值爲0。若是是女性則相反。3d


當變量分類超過兩類時,也是相似的處理方式,在迴歸分析前將下面的「專業」類別轉化爲虛擬變量,結果以下圖所示:orm


理科類取值=1表明專業爲理科,0表明非理科blog

文科類取值=1表明專業爲文科,0表明非文科ci

工科類取值=1表明專業爲工科,0表明非工科get


SPSSAU可直接一步生成虛擬變量,具體操做以下:


生成變量


分析時,要注意少放入一個虛擬變量。若是分爲兩類就放入一個虛擬變量,三類就放入兩個,以此類推。


 

緣由在於虛擬變量包括數字0和1;0是對比參考項。若是2個類別都放入了,就沒有參考類別了。



04

如何解釋分析結果



線性迴歸分析結果


由上表可知,迴歸模型經過F檢驗,性別_男一項P<0.01,說明性別對基礎工資確實存在顯著的影響關係。


模型公式爲:月基本工資=2403.834 + 42.659*工齡 + 1377.873*性別_男


當「性別_男」取值爲1表示男性的月工資迴歸方程,0表示女性的月工資迴歸方程。迴歸係數值爲1377.873,所以說明相同工齡下,男性的月基本工資比女性多1377.88元。


相反,放入的分析項若爲性別_女,迴歸係數值應爲-1377.873,表明同工齡的條件下,女性的月基本工資比男性少1377.88元



05

哪些分析方法會使用到虛擬變量



一般狀況下,迴歸分析,逐步迴歸,分層迴歸,Logistic迴歸,PLS迴歸、調節做用等這類影響關係研究的方法時,纔可能涉及到虛擬變量設置。


①迴歸分析/logistic迴歸

迴歸分析設置請參考上面的案例,注意留一項作參考項。


②調節做用

調節做用中,自變量或調節變量能夠是定量數據,也多是定類數據。


若是自變量X或者調節變量Z爲定類數據,一般須要進行虛擬(啞)變量後才能分析,此過程被SPSSAU自動化處理,只需在【問卷研究】--【調節做用】裏設置調節做用類型。


 

其餘說明


一、將虛擬變量放入迴歸中,必定要少放一個虛擬變量,不然系統會提示存在多重共線性問題


二、選擇的「參照組」不一樣,會影響迴歸係數的大小,從而可能得出不一樣的結論。


「參照組」優先考慮最容易解釋的選項。如學科分文科、理科、其餘,三項中能夠選「其餘」做爲參照項,方便解釋。


三、SPSSAU會默認生成標題,設置完成後可進行‘標題修改’。


以上就是本次分享的內容,登陸SPSSAU官網瞭解更多。



SPSSAU

在線數據分析平臺

www.spssau.com





本文分享自微信公衆號 - SPSSAU(spssau)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索