分析思惟 第四篇:數據分析入門階段——描述性統計分析和相關分析

數據分析的入門思惟,首先要認識數據,而後對數據進行簡單的分析,好比描述性統計分析和相關性分析等。編碼

一,認識變量和數據

變量和數據是數據分析中經常使用的概念,用變量來描述事物的特徵,而數據是變量的具體值,把變量的值也叫作觀測值。3d

1,變量blog

變量是用來描述整體中成員的某一個特性,例如,性別、年齡、身高、收入等。事務

變量能夠分爲:文檔

  • 定性變量:用於分類,通常是文本,例如,性別、顏色
  • 定序變量:用於表示等級或次序的變量,例如,學歷,職位,排名等,變量的值能夠把事務排列爲高低或大小,可是各個變量值之間沒有確切的間隔距離,沒法肯定兩個定序變量之間相差多少。
  • 定量變量:是數量變量,可以比較大小。分爲兩類:離散變量和連續變量。

2,數據數據分析

數據是變量的具體值,按照變量的類型,能夠把數據分爲:分類數據、順序數據和數值型數據。入門

按照數據分析的目的,能夠把數據分爲實驗組(Treatment)和參照組(Control)。變量

按照數據的類型,能夠把數據分爲:文本數據、數值型數據和日期時間數據。方法

3,缺失值im

不是全部的數據都是完整的,有些觀測值可能會缺失,對於缺失值,一般的處理方式是:刪除缺失值所在的數據行,填充缺失值、插補缺失值。

4,觀測值的重編碼

數據分析中,一般須要把連續型變量轉換爲定序變量,例如,把學生的成績劃分爲優秀、良好、合格和差4個等級,這種操做也稱做離散化。

當觀測數據所用的單位可能影響數據分析時,還須要對數據進行規範化,經常使用的規範化方法是:最小-最大規範化,標準化變換等。

觀測值的重編碼,後續會有詳細的介紹。

二,描述性統計分析

描述性統計量分爲:集中趨勢、離散程度(離中趨勢)和分佈形態。

1,集中趨勢的描述性統計量

  • 均值:是指一組數據的算術平均數,描述一組數據的平均水平,是集中趨勢中波動最小、最可靠的指標,可是均值容易受到極端值(極小值或極大值)的影響。
  • 中位數:是指當一組數據按照順序排列後,位於中間位置的數,不受極端值的影響,對於定序型變量,中位數是最適合的表徵集中趨勢的指標。
  • 衆數:是指一組數據中出現次數最多的觀測值,不受極端值的影響,經常使用於描述定性數據的集中趨勢。

2,離散程度的描述性統計量

  • 最大值和最小值:是一組數據中的最大觀測值和最小觀測值
  • 極差:又稱全距,是一組數據中的最大觀測值和最小觀測值之差,記做R,通常狀況下,極差越大,離散程度越大,其值容易受到極端值的影響。
  • 方差和標準差:是描述一組數據離散程度的最經常使用、最適用的指標,值越大,代表數據的離散程度越大。

3,分佈形態的描述性統計量

偏度:用來評估一組數據的分佈呈先的對稱程度,當偏度=0時,分佈是對稱的;當偏度>0時,分佈呈正偏態;當偏度<0時,分佈呈負偏態。

峯度:用來評估一組數據的分佈形狀的高低程度的指標,當峯度=0時,分佈和正態分佈基本一直;當峯度>0時,分佈形態高狹;當峯度<0時,分佈形態低闊。

4,頻率分析

頻數分佈分析(又稱頻率分析)主要經過頻數分佈表、條形圖和直方圖、百分位值等來描述數據的分佈特徵。

在作頻數分佈分析時,一般按照定性數據(即分類的類別),統計各個分類的頻數,計算各個分類所佔的百分比,進而獲得頻率分佈表,最後根據頻率分佈表來繪製頻率分佈圖。

 

5,按照時間遞增的趨勢分析

特殊狀況下,當X軸是日期數據,Y軸是統計量(好比均值、總數量)時,能夠繪製出統計量按照時間遞增的趨勢圖,從圖中能夠看到統計量按照時間增長的趨勢(無變化、遞增或遞減)和週期性。

例如,下圖的X軸是日期,Y軸的統計量是總數量,兩條折線分別是湖北確診病例人數和湖北新增確診病例人數:

三,相關性分析 

相關性分析是研究事務之間是否存在某種依存關係,並對具備依存關係的現象進行相關方向和相關程度的分析。

相關程度用相關係數r表示,|r|<=1,r=0表示不相關,一般狀況下,0 < | r | <1表示變量之間存在不一樣程度的線性相關,根據約定的規則:

  • | r | <=0.3 :爲弱線性相關或不存在線性相關;
  • 0.3 < | r | <=0.5 :低度線性相關,認爲存在線性相關,可是相關性不明顯
  • 0.5 < | r | <=0.8 :顯著線性相關,認爲存在強線性相關,存在明顯的相關性
  • | r | >0.8 :高度相關,認爲存在極強的線性相關

 

 

參考文檔:

相關文章
相關標籤/搜索