【數據科學系統學習】數據科學在作什麼 # 描述性統計分析

博主在一開始學習數據科學時,沒有人帶路,沒有一條直接的路徑。所以各類信息都接收,一開始比較混亂,後來接觸的多了,漸漸開始瞭解到關於數據科學無非分爲數學中的統計學、計算機中的 python 和機器學習算法、項目中對業務的理解三大塊。在學習方法和知識獲取上也多走了彎路,浪費了不少時間,如今將它們進行一遍梳理,多爲根據本身的理解進行輸出與再學習,若是對想探索數據科學的你有一點用,還請點擊文末的贊與收藏,給個鼓勵。 python

數據科學系統學習這個專題將從這三方面進行整理,下面進入正文。算法


上一篇中咱們說到了在進行描述性分析時,須要知道各指標的度量類型,來選擇適用的統計表和圖進行信息呈現。而描述性統計分析是數據分析過程的第一步,也稱爲探索性數據分析,所以本篇將介紹的是統計數據類型的度量和數據的歸納性度量。segmentfault

統計數據類型的度量

針對不一樣的數據類型會有不一樣的分析方法。數組

數據總的可分爲定性定量兩種類型。
定性:變量是品質特徵,如性別分男女;
定量:變量是數值,能夠量化,如身高體重。機器學習

其中定量類型又可分爲離散型和連續型。
離散型:計數結果,如貸款違約次數;
連續型:測試結果,如身高體重的測量。函數

其中定性分爲定類定序兩種數據類型,定量分爲定距定比兩種數據類型,它們之間也有一個等級關係,須要進行度量。學習

如何度量數據類型

按照必定的等級來劃分這些數據類型,整理以下表:
圖片描述測試

低級類型的分析方法,高級的類型也能夠用,反之不可。加密

數據的歸納性度量

即對數據的總體分佈特徵進行度量。度量指標爲集中趨勢,離散程度,分佈的形狀。spa

描述連續變量的統計量主要有四類統計量,分別用於描述數據的集中趨勢、離中趨勢、偏態程度和尖峯程度。

集中趨勢:使用某個指標表明數據的集中趨勢,常見的指標有衆數,中位數,平均數

離散程度:描述數據離散程度的常見指標有極差、方差和平均絕對誤差。其中方差和標準差獲得普遍使用。

分佈的形狀:在描述數據分佈的對稱與高矮時,須要引入偏度(數據分佈的偏斜程度)和峯度(數據分佈的高矮程度)的概念。

整理爲下表所示:
圖片描述

衆數:用衆數做爲某一變量的一個歸納性度量,是一個位置表明值。

中位數:排在數據最中間的值,此外還有四分位數、十分位數、百分位數。

平均數:數據類型必須是數值型的,平均數受數據極端值的影響很大,而中位數則不受極端值影響。當一組數據的分佈傾斜比較大時,中位數的效果可能比平均數好。

若數據分佈對稱,以上三者相同。不然,則需引入偏度和峯度來描述分佈形狀是否對稱,偏斜程度,以及扁平程度。其中,對於標準正態分佈的變量,其偏度與峯度都爲 0。

偏態:若是統計數據峯值與平均值不相等,則這個頻率分佈就是偏態的。根據峯值大於或小於平均值可分爲正偏函數和負偏函數,其偏離程度可用偏態係數刻畫。
圖片描述

偏度與變量形態:
圖片描述

偏度大小及正負取決於分佈偏移的方向及程度。對稱分佈時,偏度爲0;左偏分佈時,偏度小於0;右偏分佈時,偏度大於 0。

例如收入是一個典型的右偏分佈的變量,高收入的人數量極少,但收入極高,這樣就會將數據的分佈拉偏,平均值就會被極大收入的人拉高,此時中位數更能反映數據的集中趨勢。

峯態:對數據分佈平態或尖峯程度的測量。若是一組數據服從標準正態分佈,則峯態係數的值爲0,若不爲0,則呈平峯分佈或尖峯分佈。

圖片描述

峯度與變量形態:
圖片描述

峯度大小與正負取決於分佈相較標準正態分佈的高矮。峯度大於0,說明變量的分佈相比較標準正態分佈要更加密集;峯度小於0則較爲分散。

異衆比率:非衆數組的頻數佔總頻數的比例,異衆比率越大,衆數表明性越差。

四分位差:是上四分位數與下四分位數的差值。也稱爲四分位距,涉及到如何判斷一組數據的異常值。主要測量順序數據的離散程度。用Qd表示,Qd=Qu-QlQd佔了整個數據的 50%,反映了中間 50% 數據的離散程度,它的值越小,中間數據越集中;值越大,越分散。

方差:反映了數值型數據的「波動性」,在描述一個波動範圍時,標註差比方差更方便,由於標準差和數據單位一致。

相對離散程度:比較不一樣組數據的離散程度。用相對離散係數,也稱變異係數,即標準差與平均數的比值V=S/X,離散係數越大,說明數據離散程度越大。


若有不足,歡迎指正。

相關文章
相關標籤/搜索