我將圍繞結構方程建模(SEM)技術進行一些諮詢,以解決獨特的業務問題。咱們試圖識別客戶對各類產品的偏好,傳統的迴歸是不夠的,由於數據集的高度份量以及變量的多重共線性。PLS是處理這些有問題的數據集的強大而有效的方法。code
主成分迴歸是咱們將要探索的一種選擇,但在進行背景研究時,我發現PLS多是更好的選擇。咱們將看看PLS迴歸和PLS路徑分析。我不相信傳統的掃描電鏡在這一點上是有價值的,由於咱們沒有良好的感受或理論來對潛在的結構作出假設。此外,因爲數據集中的變量數量衆多,咱們正在將SEM技術擴展到極限。Haenlein,M&Kaplan,A.,2004年,「初步指南偏最小二乘分析」,Understanding Statistics,3(4),283-297中能夠找到關於這個限制的有趣討論。component
[1]「diesel」「turbo」「two.doors」「hatchback」「wheel.base」 [6]「length」「width」「height」「curb.weight」「eng.size」 [ 11]「馬力」「峯值.rpm」「價格」「符號」「city.mpg」 [16]「 highway.mpg 」
這些數據有16個變量和30個觀測值。它包含在plsdepot包中。blog
關於PLS迴歸的一個有趣的事情是你能夠有多個響應變量,plsdepot能夠適應這種類型的分析。在這種狀況下,我只想分析一個Y變量,那就是價格。教程
該包的一個怪癖是你須要將預測變量和響應分開,即將響應變量列放在數據幀的末尾。要作到這一點,我只是運行這個優雅的代碼,我找到了某處...ci
#把變量價格(第13列)放在最後 pls1 $ x.scores X分數(T份量) $ x.loads X-loadings $ y.scores Y-scores(U-components) $ y.loads Y-loadings $ cor.xyt得分相關性 $ raw.wgs原始權重 $ mod.wgs修改權重 $ std.coefs標準係數 $ reg.coefs常規係數 $ R2 R平方 $ R2Xy解釋Xy的方差T $ y.pred y-預測 $ resid 殘差 $ T2 T2經濟系數
Q2第二季度交叉驗證這個包中有不少,我強烈建議閱讀優秀的教程來了解更多信息。rem
>#相關圖; 注意什麼與價格高度相關get
咱們將不得不繼續查看不一樣數量的組件以肯定最佳模型,並從實際角度查看潛在變量是否有意義。產品