機器學習之統計分析(2)

時間 2019-12-07

標籤機器學習統計分析简体版

原文原文鏈接

前言

近期在阿里雲數加平臺上學習一下機器學習，把學習中整理的資料記錄於此，已備查看，下面資料主要是概念解釋及應用。html

獨立樣本是指兩個樣本之間彼此獨立。獨立樣本T檢驗是檢測兩個樣本之間是否有顯著性差別。
前提是兩個樣本相互獨立。來自的兩個總體服從正態分佈。htm

配對樣本T檢驗是檢驗來自兩配對總體的均值是否有顯著性差別。

來自維基百科的定義：blog

其零若是爲兩個正態分佈的總體的均值之差爲某實數。好比檢驗二羣人的身高之平均是否相等。這一檢驗一般被稱爲學生t檢驗。排序

但更爲嚴格地說。僅僅有兩個總體的方差是相等的狀況下，才稱爲學生t檢驗。不然，有時被稱爲Welch檢驗。以上談到的檢驗通常被稱做「未配對」或「獨立樣本」t檢驗。咱們特別是在兩個被檢驗的樣本沒有重疊部分時用到這樣的檢驗方式。

單樣本T檢驗

單樣本T檢驗是檢驗某個變量的總體均值和某指定值之間是否存在顯著差別。

T檢驗的前提是樣本總體服從正態分佈。

來自維基百科的定義：

檢驗一個正態分佈的總體的均值是否在知足零若是的值以內，好比檢驗一羣人的身高的平均是否符合170公分。

參考資料

維基百科
 微博文章

正態檢驗

正態性檢驗是檢驗觀測值是否服從正態分佈。本組件由三種檢驗方法組成，包含Anderson-Darling Test, Kolmogorov-Smirnov Test，以及QQ圖。

原若是H0：觀測值服從正態分佈。H1：觀測值不服從正態分佈

KS的p值計算方法採用漸進計算KS分佈的CDF，無論樣本量多大都採用的是該方法

QQ圖在樣本量>1000時。會採樣進行計算和繪圖輸出。所以圖中的數據點不必定覆蓋所有樣本

效果圖

洛倫茲曲線

洛倫茲曲線研究的是國民收入在國民之間的分配問題。爲了研究國民收入在國民之間的分配問題，美國統計學家（或說奧地利統計學家）M.O.洛倫茲（Max Otto Lorenz。1903- ）1907年（或說1905年）提出了著名的洛倫茲曲線。意大利經濟學家基尼在此基礎上定義了基尼係數。畫一個矩形。矩形的高衡量社會財富的百分比，將之分爲N等份。每一等分爲1/N的社會總財富。

在矩形的長上。將所有家庭從最貧者到最富者自左向右排列，也分爲N等分，第一個等份表明收入最低的1/N的家庭。在這個矩形中，將每1/N的家庭所有擁有的財富的佔比累積起來，並將相應的點畫在圖中。便獲得了一條曲線就是洛倫茲曲線。

效果圖

參考資料

維基百科

分位數及百分位數

Quartile（四分位數）

四分位數（Quartile）是統計學中分位數的一種，即把所有數值由小到大排列並分紅四等份。處於三個切割點位置的數值就是四分位數。

第一四分位數 (Q1)。又稱「較小四分位數」，等於該樣本中所有數值由小到大排列後第25%的數字。
第二四分位數 (Q2)。又稱「中位數」，等於該樣本中所有數值由小到大排列後第50%的數字。

第三四分位數 (Q3)，又稱「較大四分位數」，等於該樣本中所有數值由小到大排列後第75%的數字。

第三四分位數與第一四分位數的差距又稱四分位距（InterQuartile Range, IQR）

百分位

計算某列的百分位。

維基百科定義:

百分位數，統計學術語，若是將一組數據從小到大排序。並計算相應的累計百分位。則某一百分位所相應數據的值就稱爲這一百分位的百分位數。

運用在教育統計學中。好比表現測驗成績時。(維基百科)

參考資料

維基百科

皮爾森係數

在統計學中。皮爾遜積矩相關係數（英語：Pearson product-moment correlation coefficient，又稱做 PPMCC或PCCs[1], 文章中常用r或Pearson’s r表示）用於度量兩個變量X和Y之間的相關（線性相關）。其值介於-1與1之間。在天然科學領域中，該係數普遍用於度量兩個變量之間的相關程度。

它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不一樣的想法演變而來的。[2][3]這個相關係數也稱做「皮爾森相關係數r」。

公式定義

兩個變量之間的皮爾遜相關係數定義爲兩個變量之間的協方差和標準差的商：

數值含義

樣本的簡單相關係數通常用r表示，當中n 爲樣本量，分別爲兩個變量的觀測值和均值。r描寫敘述的是兩個變量間線性相關強弱的程度。r的取值在-1與+1之間。若r>0，代表兩個變量是正相關，即一個變量的值越大，還有一個變量的值也會越大；若r<0。代表兩個變量是負相關。即一個變量的值越大還有一個變量的值反而會越小。r 的絕對值越大代表相關性越強。要注意的是這裏並不存在因果關係。若r=0，代表兩個變量間不是線性相關。但有多是其它方式的相關（比方曲線方式）

參考資料

維基百科

百度百科

直方圖(多字段)

可選擇多個字段查看直方圖

離散值特徵分析

統計離散值的gini係數、entropy、相應label個數等

空值只是濾，當作一個枚舉值計算

稀疏格式表示，某列的某個枚舉值若是僅僅有1個Label。對於未出現的label不輸出0

對於每個離散值的gini，entropy都乘以該離散值的機率

圖演示樣例如如下：

gini 係數

維基百科定義：

基尼係數（英語：Gini coefficient），是20世紀初意大利學者科拉多·基尼依據勞倫茨曲線所定義的推斷年收入分配公平程度的指標[2]。

是比例數值，在0和1之間。基尼指數（Gini index）是指基尼係數乘100倍做百分比表示。在民衆收入中。如基尼係數最大爲「1」，最小爲「0」。前者表示居民之間的年收入分配絕對不平均（即該年所有收入都集中在一我的手裏，其他的國民沒有收入），然後者則表示居民之間的該年收入分配絕對平均。即人與人之間收入絕對平等，這基尼係數的實際數值僅僅能介於這兩種極端狀況。即0～1之間。基尼係數越小。年收入分配越平均，基尼係數越大，年收入分配越不平均。要注意基尼係數僅僅計算某一時段，如一年的收入，不計算已有財產。所以它不能反映國民的總積累財富分配狀況。