5個基本概念,從統計學到機器學習

來源:CSDN算法

本文約3000字,建議閱讀5分鐘機器學習

本文講述了數據分析師應當瞭解的五個統計基本概念:統計特徵、機率分佈、降維、過採樣/欠採樣、貝葉斯統計方法。函數


本文講述了數據分析師應當瞭解的五個統計基本概念:統計特徵、機率分佈、降維、過採樣/欠採樣、貝葉斯統計方法。學習

從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。可是,經過統計學咱們能夠以更富有信息驅動力和針對性的方式對數據進行操做。所涉及的數學理論幫助咱們造成數據的具體結論,而不只僅是猜想。事件

利用統計學,咱們能夠更深刻、更細緻地觀察數據是如何進行精確組織的,而且基於這種組織結構,如何可以以最佳的形式來應用其它相關的技術以獲取更多的信息。今天,咱們來看看數據分析師須要掌握的5個基本的統計學概念,以及如何有效地進行應用。數據分析

01 特徵統計數學

特徵統計多是數據科學中最經常使用的統計學概念。它是你在研究數據集時常用的統計技術,包括誤差、方差、平均值、中位數、百分數等等。理解特徵統計而且在代碼中實現都是很是容易的。請看下圖:io

上圖中,中間的直線表示數據的中位數。中位數用在平均值上,由於它對異常值更具備魯棒性。第一個四分位數本質上是第二十五百分位數,即數據中的25%要低於該值。第三個四分位數是第七十五百分位數,即數據中的75%要低於該值。而最大值和最小值表示該數據範圍的上下兩端。class

箱形圖很好地說明了基本統計特徵的做用:變量

  • 當箱形圖很短時,就意味着不少數據點是類似的,由於不少值是在一個很小的範圍內分佈;

  • 當箱形圖較高時,就意味着大部分的數據點之間的差別很大,由於這些值分佈的很廣;

  • 若是中位數接近了底部,那麼大部分的數據具備較低的值。若是中位數比較接近頂部,那麼大多數的數據具備更高的值。基本上,若是中位線不在框的中間,那麼就代表了是偏斜數據;

  • 若是框上下兩邊的線很長表示數據具備很高的標準誤差和方差,意味着這些值被分散了,而且變化很是大。若是在框的一邊有長線,另外一邊的不長,那麼數據可能只在一個方向上變化很大

02 機率分佈

咱們能夠將機率定義爲一些事件將要發生的可能性大小,以百分數來表示。在數據科學領域中,這一般被量化到0到1的區間範圍內,其中0表示事件肯定不會發生,而1表示事件肯定會發生。那麼,機率分佈就是表示全部可能值出現的概率的函數。請看下圖:

常見的機率分佈,均勻分佈(上)、正態分佈(中間)、泊松分佈(下):

  • 均勻分佈是其中最基本的機率分佈方式。它有一個只出如今必定範圍內的值,而在該範圍以外的都是0。咱們也能夠把它考慮爲是一個具備兩個分類的變量:0或另外一個值。分類變量可能具備除0以外的多個值,但咱們仍然能夠將其可視化爲多個均勻分佈的分段函數。

  • 正態分佈,一般也稱爲高斯分佈,具體是由它的平均值和標準誤差來定義的。平均值是在空間上來回變化位置進行分佈的,而標準誤差控制着它的分佈擴散範圍。與其它的分佈方式的主要區別在於,在全部方向上標準誤差是相同的。所以,經過高斯分佈,咱們知道數據集的平均值以及數據的擴散分佈,即它在比較廣的範圍上擴展,仍是主要圍繞在少數幾個值附近集中分佈。

  • 泊松分佈與正態分佈類似,但存在偏斜率。象正態分佈同樣,在偏斜度值較低的狀況下,泊松分佈在各個方向上具備相對均勻的擴散。可是,當偏斜度值很是大的時候,咱們的數據在不一樣方向上的擴散將會是不一樣的。在一個方向上,數據的擴散程度很是高,而在另外一個方向上,擴散的程度則很是低。

若是遇到一個高斯分佈,那麼咱們知道有不少算法,在默認狀況下高思分佈將會被執行地很好,所以首先應該找到那些算法。若是是泊松分佈,咱們必需要特別謹慎,選擇一個在空間擴展上對變化要有很好魯棒性的算法。

03 降維 

降維這個術語能夠很直觀的理解,意思是下降一個數據集的維數。在數據科學中,這是特徵變量的數量。請看下圖:

上圖中的立方體表示咱們的數據集,它有3個維度,總共1000個點。以如今的計算能力,計算1000個點很容易,但若是更大的規模,就會遇到麻煩了。然而,僅僅從二維的角度來看咱們的數據,好比從立方體一側的角度,能夠看到劃分全部的顏色是很容易的。經過降維,咱們將3D數據展示到2D平面上,這有效地把咱們須要計算的點的數量減小到100個,大大節省了計算量。

另外一種方式是咱們能夠經過特徵剪枝來減小維數。利用這種方法,咱們刪除任何所看到的特徵對分析都不重要。例如,在研究數據集以後,咱們可能會發現,在10個特徵中,有7個特徵與輸出具備很高的相關性,而其它3個則具備很是低的相關性。那麼,這3個低相關性的特徵可能不值得計算,咱們可能只是能在不影響輸出的狀況下將它們從分析中去掉。

用於降維的最多見的統計技術是PCA,它本質上建立了特徵的向量表示,代表了它們對輸出的重要性,即相關性。PCA能夠用來進行上述兩種降維方式的操做。

04 過採樣和欠採樣 

過採樣和欠採樣是用於分類問題的技術。例如,咱們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開咱們嘗試和使用的許多機器學習技術來給數據建模並進行預測。那麼,過採樣和欠採樣能夠應對這種狀況。請看下圖:

在上面圖中的左右兩側,藍色分類比橙色分類有更多的樣本。在這種狀況下,咱們有2個預處理選擇,能夠幫助機器學習模型進行訓練。

欠採樣意味着咱們將只從樣本多的分類中選擇一些數據,而儘可能多的使用樣本少的分類樣本。這種選擇應該是爲了保持分類的機率分佈。咱們只是經過更少的抽樣來讓數據集更均衡。

過採樣意味着咱們將要建立少數分類的副本,以便具備與多數分類相同的樣本數量。副本將被製做成保持少數分類的分佈。咱們只是在沒有得到更多數據的狀況下讓數據集更加均衡。

05 貝葉斯統計

徹底理解爲何在咱們使用貝葉斯統計的時候,要求首先理解頻率統計失敗的地方。大多數人在聽到「機率」這個詞的時候,頻率統計是首先想到的統計類型。它涉及應用一些數學理論來分析事件發生的機率,明確地說,咱們惟一計算的數據是先驗數據(prior data)。

假設我給了你一個骰子,問你擲出6點的概率是多少,大多數人都會說是六分之一。

可是,若是有人給你個特定的骰子總能擲出6個點呢?由於頻率分析僅僅考慮以前的數據,而給你做弊的骰子的因素並無被考慮進去。

貝葉斯統計確實考慮了這一點,咱們能夠經過貝葉斯法則來進行說明:

在方程中的機率P(H)基本上是咱們的頻率分析,給定以前的關於事件發生機率的數據。方程中的P(E|H)稱爲可能性,根據頻率分析獲得的信息,實質上是現象正確的機率。例如,若是你要擲骰子10000次,而且前1000次所有擲出了6個點,那麼你會很是自信地認爲是骰子做弊了。

若是頻率分析作的很是好的話,那麼咱們會很是自信地肯定,猜想6個點是正確的。同時,若是骰子做弊是真的,或者不是基於其自身的先驗機率和頻率分析的,咱們也會考慮做弊的因素。正如你從方程式中看到的,貝葉斯統計把一切因素都考慮在內了。當你以爲以前的數據不能很好地表明將來的數據和結果的時候,就應該使用貝葉斯統計方法。

編輯:文婧