- 原文地址:The 10 Statistical Techniques Data Scientists Need to Master
- 原文做者:James Le
- 譯文出自:掘金翻譯計劃
- 本文永久連接:github.com/xitu/gold-m…
- 譯者:HearFishle
- 校對者:mymmon, hu7may
不管你在數據科學是否「性感「的問題上站定何種立場,都沒法忽略一個事實:數據,和咱們分析數據、組織數據、肯定數據上下文關係的能力正在愈來愈重要。憑藉龐大的就業數據和員工反饋,Glassdoor(一家美國的求職社區,譯者注)將數據科學家排在全美最佳的 25 個職位中的第一名。所以,雖然這個角色會依然存在,但毫無疑問,數據科學家們所作的具體任務將會不斷進化。隨着像機器學習這樣的技術的普及,還有像深度學習這樣的新興領域,得到了來自研究人員和工程師們及他們所在的公司的巨大關注,數據科學家們將繼續在創新和科技進步的浪潮中乘風破浪。前端
儘管擁有強悍的編程能力是重要的,但數據科學並不徹底是軟件工程(事實上,熟悉Python的話會更容易展開工做)。數據科學家須要的是編程,分析和關鍵性思考的三重能力。正如 Josh Wills 所言,「數據科學傢俱有比任何編程人員都更豐富的統計學知識,和比任何統計學家都強的編程能力。」據我我的瞭解,太多的軟件工程師想轉行成爲數據科學家。他們在沒有徹底理解數據科學理論的狀況下就盲目利用機器學習框架如 TensorFlow 或者 Apache Spark 去處理數據。他們對待統計學習這個基於統計學和泛函分析的機器學習理論框架,也是如此。python
爲何要學習統計學習理論? 理解多種技術背後的思想是很重要的,這樣便於知道如何以及什麼時候使用它們。爲了掌握更復雜的方法,人們必須先理解更簡單的方法。準確評估方法的性能是很是重要的,這讓咱們肯定工做是否正常進行。而且,這是個使人興奮的研究領域,在科技,工業和金融行業都有這很是重要的應用。歸根結底,統計學習是現代數據科學家培訓的基本要素。統計學習問題的例子包括有:android
在大學的最後一個學期,我自學了數據挖掘。這門課的材料涵蓋了這三本書的內容:Intro to Statistical Learning (Hastie, Tibshirani, Witten, James),Doing Bayesian Data Analysis(Kruschke)和 Time Series Analysis and Applications(Shumway,Stoffer)。我作了大量和貝葉斯分析,馬爾可夫鏈,分層建模,監督和無監督學習相關的練習。這個經歷加深了我對數據挖掘學術領域的興趣,並使我確信要向更深處探索。最近,我在 Stanford Lagunita 自學了 Statistical Learning online course,它涵蓋了 Intro to Statistical Learning book 的所有材料。兩次接觸這些內容,我想分享這本書中的 10 種統計技術,我想任何數據科學家都應該學會這些技術,以便更有效地處理大數據集。ios
在開始介紹這十種技術以前,我想先區分一下統計學習和機器學習。以前我寫了機器學習中最流行的方法之一所以我很是自信我有能力去判斷它們的差別:git
在統計學中,線性迴歸是一種經過擬合自變量和因變量之間的最優線性函數去預測目標變量的方法。當擬合每一個點獲得的值和實際觀測值的距離之和最小時,咱們就能夠認定最佳擬合了。在選擇形狀時,在沒有其餘的位置會產生更少的偏差的狀況下,說明這個形狀的擬合是」最好「的。兩種主要的線性迴歸是簡單線性迴歸和 多元線性迴歸。簡單線性迴歸 經過擬合一個最優線性關係,使用單自變量去預測一個因變量。多元線性迴歸則是經過擬合一個最優線性函數,使用不止一個自變量去預測因變量。github
能夠選擇你生活中的任意兩個有關係的事物。好比,我有過去三年我每月收入和支出以及出行的數據。如今我要回答以下問題:算法
分類是一種數據挖掘技術,它爲數據集合分好類,以幫助進行更準確的預測和分析。分類有時候也被稱爲決策樹方法,是有效分析大型數據集的幾種方法之一。兩種脫穎而出的主要的分類技術是邏輯迴歸和判別分析。編程
當因變量是對立的(二元)時,邏輯迴歸是適當的迴歸分析方法。和全部的迴歸分析相似,邏輯迴歸是一種預測分析。邏輯迴歸用於描述數據,並解釋一個因變量與一個或多個定類、定序、定距或定比自變量之間的關係。邏輯迴歸能夠校驗的問題有:bootstrap
在判別分析中,兩個或者更多的組或羣或整體是已知先驗的,而根據分析的特徵,1個或者更多的觀測值被劃分進入已知的某一類簇中。判別分析模擬了預測因子 X 在每一個響應類別中的分佈,而後使用貝葉斯定理將其轉換爲給定 X 值的響應類別的機率估計值。這些模型能夠是線性的,也能夠是二次的 。後端
重採樣是指從原始數據樣本中提取重複樣本的方法。它是一種統計推斷的非參數方法。換言之,重採樣方法不涉及使用通用分佈表來計算近似的 p 的機率值。
重採樣基於實際數據生成一個惟一的抽樣分佈。它使用實驗方法而非分析方法來生成這個惟一的抽樣分佈。它基於研究員所研究的全部可能結果的無偏樣原本產生無偏估計。爲了理解重採樣的概念,你應該瞭解自舉法(也翻譯成拔靴法,譯者注)和交叉驗證:
一般,對於線性模型來講,普通最小二乘法是擬合數據時考慮的主要標準。下面三個方法能夠替代它而且可以提供更好的預測準確率和擬合線性模型的可解釋性。
此方法肯定被咱們認爲與響應相關的 p 個預測因子的一個子集。而後咱們利用子集特徵的最小二乘來擬合模型。
這種方法適合包含全部 p 個預測因子的模型。然而,估計係數將根據最小二乘的估值向零收斂。這種收縮也稱之爲正則化。它旨在減小方差以防止模型的過擬合。因爲咱們使用不一樣的收斂方法,有些係數將被估計爲零。所以這種方法也能執行變量的選擇,將變量收斂爲零最想見的技術就是嶺迴歸和 lasso 迴歸。
降維算法將 p + 1 個係數的問題簡化爲 M + 1 個係數的問題,其中 M < p。算法執行包括計算變量的 M 個不一樣線性組合或投影(projection)。而後將這 M 個投影做爲預測因子,並經過最小二乘法來擬合一個線性迴歸模型。兩個處理方法是主成分迴歸(principal component regression) 和 偏最小二乘法(partial least squares)。
在統計學中,非線性迴歸屬於一種觀測數據使用模型參數的非線性組合的函數(依賴於一個或多個獨立變量)建模的迴歸分析形式。其使用逐次逼近法擬合數據。下方是幾種處理非線性模型的重要技術:
基於樹的方法能夠用於迴歸和分類問題,包括將預測因子的空間分層或分割成幾個簡單區域。因爲用於預測器空間的分離規則集合能夠總結爲一個樹,這類方法被稱爲決策樹方法。如下的方法是幾種不一樣的樹,它們能夠組合起來輸出單個一致的預測。
支持向量機(SVM)是一種經常使用的監督學習分類技術。通俗地說,它用於尋找對兩類點集作出最佳分離的超平面(hyperplane,在 2D 空間中是線,在 3D 空間中是面,在高維空間中是超平面。更正式的說法是,一個超平面是一個 n 維空間的 n-1 維子空間)。而支持向量機是保留最大的間隔的分離超平面,所以本質上,它是一個約束最優化問題,其中支持向量機的間隔在約束下被最大化,從而完美地對數據進行分類(硬間隔分類器)。
"支持"超平面的數據點被稱爲"支持向量"。在上圖中,填充藍色圓和兩個填充方塊就是支持向量。在兩類數據不是線性可分的例子中,數據點將被投射到一個更高維空間中,使得數據變得線性可分。包含多個類別的數據點的問題能夠分解成多個"一對一"(one-versus-one)或"一對剩餘"(one-versus-rest)的二分類問題。
目前爲止,咱們都只討論過監督學習技術,其中數據分類都是已知的,且提供給算法的經驗都是實體和其分類的關係。當數據的分類是未知的時候,就須要使用另外一種技術了。它們被稱爲無監督的,由於它們須要本身去發現數據中的模式。聚類(clustring)是無監督學習的一種,其中數據將根據相關性被分爲多個集羣。下方是幾種最經常使用的無監督學習算法:
這是一些基本統計技術的基本運用,它們能夠幫助數據科學項目經理和/或執行人員更好地瞭解他們的數據科學團隊的內部運行狀況。事實上,一些數據科學團隊純粹是經過 python 和 R 語言庫運行算法。他們中的大多數甚至不須要考慮基礎的數學。可是,可以理解統計分析的基礎知識能夠爲您的團隊提供更好的方法。洞察最小的部分可使操做和抽象更容易。但願本基礎數據科學統計指南能給您一個很好的理解!
**你能夠從[個人 Github 源代碼]得到全部講座的幻燈片和 RStudio 課程(github.com/khanhnamle1…
若是發現譯文存在錯誤或其餘須要改進的地方,歡迎到 掘金翻譯計劃 對譯文進行修改並 PR,也可得到相應獎勵積分。文章開頭的 本文永久連接 即爲本文在 GitHub 上的 MarkDown 連接。
掘金翻譯計劃 是一個翻譯優質互聯網技術文章的社區,文章來源爲 掘金 上的英文分享文章。內容覆蓋 Android、iOS、前端、後端、區塊鏈、產品、設計、人工智能等領域,想要查看更多優質譯文請持續關注 掘金翻譯計劃、官方微博、知乎專欄。