做者|RAM DEWANI
編譯|VK
來源|Analytics Vidhya機器學習
你能夠在Excel中執行建模,只需幾個步驟ide
下面是一個教程,介紹如何在Excel中構建線性迴歸模型以及如何解釋結果工具
Excel真的能構建預測模型?學習
這一般是我提起這個話題時的第一反應。當我演示如何利用Excel的靈活性爲咱們的數據科學和分析項目構建預測模型時,接下來是一個使人懷疑的眼神。ui
讓我問你一個問題-若是你周圍的商店開始收集客戶數據,他們是否能夠採用基於數據的策略來銷售他們的商品?他們能預測本身的銷售額或估計可能銷售的產品數量嗎?.net
如今你必定想知道,他們究竟將如何創建一個複雜的統計模型來預測這些事情?學習分析或僱傭分析師可能超出了他們的能力範圍。好消息是,他們不須要。插件
Microsoft Excel爲咱們提供了一種構建預測模型的能力,而沒必要編寫複雜的代碼。3d
咱們能夠很容易地在MS Excel中創建一個簡單的線性迴歸模型,它能夠幫助咱們在幾個簡單的步驟中執行分析。咱們不須要精通Excel或統計學就能夠進行預測建模!excel
在這篇文章中,我將解釋如何在Excel中創建一個線性迴歸模型,以及如何對結果進行分析,以便你成爲一名分析師!blog
什麼是線性迴歸?
在Excel中獲取全部重要的Add分析工具包
在Excel中實現線性迴歸
解釋咱們預測模型的結果
咱們如何改進模型?
用Excel作預測!
線性迴歸是咱們大多數人學習的第一種機器學習技術。它也是業界最經常使用的監督學習技術。
但什麼是線性迴歸?
它是一種線性方法,用於統計建模因變量(要預測的變量)和自變量(用於預測的因素)之間的關係。線性迴歸給出了這樣一個方程:
這裏,Y是因變量,X是自變量,C是係數。係數基本上是根據重要性分配給特徵的權重。
最經常使用的迴歸方法是OLS(普通最小二乘法)。它的目標是減小平方和以產生這樣的最佳擬合線:
若是你想了解有關線性迴歸的更多信息,請參閱如下資源:
線性迴歸基礎:https://courses.analyticsvidhya.com/courses/Fundamentals-of-Regression-Analysis
線性迴歸模型中的診斷圖:https://www.analyticsvidhya.com/blog/2013/12/residual-plots-regression-model/
Excel中線性迴歸的初學者指南:https://www.analyticsvidhya.com/blog/2017/06/a-comprehensive-guide-for-linear-ridge-and-lasso-regression/
要在Excel中執行迴歸分析,首先須要啓用Excel的分析工具包加載項。Excel中的分析工具包是一個插件程序,爲統計和工程分析提供數據分析工具。
要將其添加到工做簿中,請執行如下步驟。
轉到文件->選項:
轉到左側面板上的加載項->管理Excel加載項->轉到:
選擇「分析工具包」並按「肯定」:
你已在Excel中成功添加分析工具包!你能夠經過轉到功能區中的數據欄進行檢查。
讓咱們開始用Excel創建咱們的預測模型!
到目前爲止,不少東西都是理論上的。如今,讓咱們深刻了解Excel並進行線性迴歸分析!
下面是咱們將要處理的問題聲明:
Winden鎮有一家賣鞋的公司。該公司但願經過考慮如下因素來預測每一個客戶的銷售狀況:客戶收入、離家距離、客戶每週的跑步頻率。
進入數據->數據分析:
轉到數據工具包中的「數據分析」,選擇「迴歸」,而後按「肯定」:
在這一步中,咱們將選擇一些分析所需的選項,例如:
輸入y範圍–獨立因子的範圍
輸入x範圍-相關因素的範圍
輸出範圍–要顯示結果的單元格範圍
其餘選項是自由選擇的,你能夠根據你的特定目的選擇它們。
按OK,咱們最終在Excel中用兩個步驟進行了迴歸分析!很簡單!如今咱們將在excel中看到迴歸分析的結果。
實施線性迴歸模型是最簡單的部分。如今是咱們分析的棘手方面——在Excel中解釋預測模型的結果。
綜上所述,咱們有三種產出類型,咱們將逐一介紹:
迴歸統計表
方差分析表
迴歸係數表
殘差表
迴歸統計表告訴咱們最佳擬合線如何定義自變量和因變量之間的線性關係。兩個最重要的度量是R方和調整R方。
R方統計量是擬合優度的指標,它告訴咱們最佳擬合線解釋了多少方差。R方的範圍從0到1。
在咱們的例子中,R平方值爲0.953,這意味着咱們的行可以解釋95%的方差——這是一個好的跡象。
可是有一個問題-當咱們不斷增長更多的變量,咱們的R平方值將繼續增長,即便變量可能沒有任何影響。調整R平方解決了這個問題,是一個更可靠的度量。
方差分析表明方差分析。此表將平方和分解爲其組成部分,以提供模型內變化的詳細信息。
它包括一個很是重要的指標,顯著性F(或P值),它告訴咱們你的模型是否具備統計顯著性。
簡而言之,這意味着咱們的結果可能不是因爲隨機性,而是由於一個潛在的緣由。
p值最經常使用的閾值是0.05。若是咱們獲得的值低於這個,就能夠了。不然,咱們須要選擇另外一組自變量。
在咱們的例子中,咱們的值遠低於0.05的閾值。太棒了,咱們如今能夠前進了!
係數表以係數的形式分解迴歸線的組成部分。從中咱們能夠了解不少。
對於Winden鞋業公司來講,彷佛每增長一個單位的收入,銷售額就增長0.08,而增長一個單位的店面距離就增長508個銷售額!
running frequency的增長彷佛使銷售量減小了24,但咱們真的能相信這個特徵嗎?
若是你看上面的圖片,你會發現它的p值大於0.5,這意味着它在統計學上不顯著。
咱們將在下一節探討如何處理這種狀況。
殘差表反映了預測值與實際值之間的差別。它由咱們的模型預測的值組成:
如前所述,變量running frequency的p值大於0.05,所以讓咱們從分析中移除該變量來檢查結果。
咱們將遵循上述全部步驟,但不包括running frequency列:
咱們注意到調整後的R平方的值從0.920略微提升到0.929!
咱們已經準備好迴歸分析了,如今該怎麼辦?讓咱們看看。
你的一位老顧客,名叫亞歷山德,走進來,咱們想預測他的銷售額。咱們能夠簡單地從線性迴歸模型的數據中插入數字,咱們很好去!
Aleksander有4萬的收入,住在離商店2千米的地方。估計銷售額是多少?
方程變成:
在這裏,咱們的模型估計,亞歷山德先生將支付4218購買他的新鞋!這就是簡單地在Microsoft Excel中進行線性迴歸的能力。
在本文中,咱們學習瞭如何在Excel中創建線性迴歸模型以及如何解釋結果。我但願這本教程能幫助你成爲一個更好的分析師或數據科學家。
分析工具包包含許多其餘Excel分析選項。你能夠在平常生活中嘗試不少其餘的統計分析!
原文連接:https://www.analyticsvidhya.com/blog/2020/06/predictive-modeling-excel-linear-regression/
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/