業界 | 數據科學家要先學邏輯迴歸?圖樣圖森破!

近期,數據科學圈出現了很多「數據科學家應最早學習邏輯迴歸」的聲音。做爲一名與市場營銷人員、銷售人員、工程師一塊兒工做的「孤立的」統計學家,我深深反對這一說法!算法

有許多工做尤爲是生物統計領域都要求從業人員可以掌握並運用邏輯迴歸的知識。若是你在大學曾學過一些邏輯迴歸,這會對你頗有幫助,但對於初學者來講,它並非入門課程。編程

在個人職業生涯中,我能夠靈活地選擇使用哪些方法和工具,現在許多從業者都處於相似的環境中。工具

所以有必定的概率,初學者在對邏輯迴歸的原理了解不多的狀況下,使用像黑盒工具同樣的邏輯迴歸,而後把本身拉入深坑。學習

2c2494ffe960aec87bef37543bdd7c626b4f005d

下面列出了5條邏輯迴歸應放在最後學習的理由:優化

  • 存在着上百種不一樣類型的邏輯迴歸,一些適用於分類變量,一些適用於特定的分佈(例如泊松分佈)。專家在使用時也經常感到困惑,初學者和你的老闆更會如此。blog

  • 轉換因變量後(一般是比例或二值型因變量,例如本文觀點正確/錯誤),問題就變成了線性迴歸。雖然純粹主義者聲稱實際的邏輯迴歸模型更精確,然而相較於模型的精確度,數據的質量纔是相當重要的。若是數據有20%的噪聲,或者理論模型是對實際狀況的粗略估計,那麼模型精確度高出1%並無實際用處。開發

  • 除非可以妥善處理(例如使用ridge或Lasso迴歸),不然在噪聲、缺失值和髒數據的影響下會致使模型過分擬合及缺少穩健性(使用例如梯度優化等技術的迭代算法)。入門

  • 邏輯迴歸的係數不容易解釋。當你對決策者或者其餘部門解釋模型時,不多有人可以理解。變量

  • 最好的模型一般會將多種方法混合到一塊兒,以便能儘量多的得到/解釋差別。在我做爲數據科學家長達30年的職業生涯中,從未使用過純邏輯迴歸,但我開發出了一項更加穩健且便於使用及編程的混合技術,結果也容易解讀。它將「不純的」邏輯迴歸和「不純的」決策樹混合在一塊兒,效果十分顯著,尤爲是對於你的「不純」數據評分時。詳情請戳。原理

相關文章
相關標籤/搜索