虛擬變量又稱啞變量,是人爲設定的用於將分類變量引入模型中的方法。微信
在迴歸分析中,自變量X既能夠是定量數據也能夠定類數據。迴歸分析計算時是將全部自變量X視爲數字,但當數據爲定類數據時,此時數字表明類別,數字大小自己沒有比較意義。所以,這類數據在作迴歸分析時,須要設置成啞變量才能歸入迴歸分析正確分析數據。編輯器
用一個例子說明:研究性別和工齡對基本工資的影響狀況。flex
工齡是定量數據;性別爲二分類數據,於是分析時性別不能直接放入迴歸模型,正確作法是將變量轉化成取值爲1和0的啞變量。spa
性別分爲兩類,於是須要設置2個虛擬變量(2列),分別表示男性和女性兩個類別。.net
若是是男性,‘性別_男’虛擬變量取值爲1,‘性別_女’虛擬變量取值爲0。若是是女性則相反。3d
當變量分類超過兩類時,也是相似的處理方式,在迴歸分析前將下面的「專業」類別轉化爲虛擬變量,結果以下圖所示:orm
理科類取值=1表明專業爲理科,0表明非理科blog
文科類取值=1表明專業爲文科,0表明非文科ci
工科類取值=1表明專業爲工科,0表明非工科get
SPSSAU可直接一步生成虛擬變量,具體操做以下:
生成變量
分析時,要注意少放入一個虛擬變量。若是分爲兩類就放入一個虛擬變量,三類就放入兩個,以此類推。
緣由在於虛擬變量包括數字0和1;0是對比參考項。若是2個類別都放入了,就沒有參考類別了。
線性迴歸分析結果
由上表可知,迴歸模型經過F檢驗,性別_男一項P<0.01,說明性別對基礎工資確實存在顯著的影響關係。
模型公式爲:月基本工資=2403.834 + 42.659*工齡 + 1377.873*性別_男
當「性別_男」取值爲1表示男性的月工資迴歸方程,0表示女性的月工資迴歸方程。迴歸係數值爲1377.873,所以說明相同工齡下,男性的月基本工資比女性多1377.88元。
相反,放入的分析項若爲性別_女,迴歸係數值應爲-1377.873,表明同工齡的條件下,女性的月基本工資比男性少1377.88元
一般狀況下,迴歸分析,逐步迴歸,分層迴歸,Logistic迴歸,PLS迴歸、調節做用等這類影響關係研究的方法時,纔可能涉及到虛擬變量設置。
①迴歸分析/logistic迴歸
迴歸分析設置請參考上面的案例,注意留一項作參考項。
②調節做用
調節做用中,自變量或調節變量能夠是定量數據,也多是定類數據。
若是自變量X或者調節變量Z爲定類數據,一般須要進行虛擬(啞)變量後才能分析,此過程被SPSSAU自動化處理,只需在【問卷研究】--【調節做用】裏設置調節做用類型。
其餘說明
一、將虛擬變量放入迴歸中,必定要少放一個虛擬變量,不然系統會提示存在多重共線性問題。
二、選擇的「參照組」不一樣,會影響迴歸係數的大小,從而可能得出不一樣的結論。
「參照組」優先考慮最容易解釋的選項。如學科分文科、理科、其餘,三項中能夠選「其餘」做爲參照項,方便解釋。
三、SPSSAU會默認生成標題,設置完成後可進行‘標題修改’。
以上就是本次分享的內容,登陸SPSSAU官網瞭解更多。
本文分享自微信公衆號 - SPSSAU(spssau)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。