分析思惟第四篇：數據分析入門階段——描述性統計分析和相關分析

時間 2020-02-25

標籤分析思惟第四數據入門階段描述統計分析相關简体版

原文原文鏈接

數據分析的入門思惟，首先要認識數據，而後對數據進行簡單的分析，好比描述性統計分析和相關性分析等。編碼

一，認識變量和數據

變量和數據是數據分析中經常使用的概念，用變量來描述事物的特徵，而數據是變量的具體值，把變量的值也叫作觀測值。3d

1，變量blog

變量是用來描述整體中成員的某一個特性，例如，性別、年齡、身高、收入等。事務

變量能夠分爲：文檔

定性變量：用於分類，通常是文本，例如，性別、顏色
定序變量：用於表示等級或次序的變量，例如，學歷，職位，排名等，變量的值能夠把事務排列爲高低或大小，可是各個變量值之間沒有確切的間隔距離，沒法肯定兩個定序變量之間相差多少。
定量變量：是數量變量，可以比較大小。分爲兩類：離散變量和連續變量。

2，數據數據分析

數據是變量的具體值，按照變量的類型，能夠把數據分爲：分類數據、順序數據和數值型數據。入門

按照數據分析的目的，能夠把數據分爲實驗組（Treatment）和參照組（Control）。變量

按照數據的類型，能夠把數據分爲：文本數據、數值型數據和日期時間數據。方法

3，缺失值im

不是全部的數據都是完整的，有些觀測值可能會缺失，對於缺失值，一般的處理方式是：刪除缺失值所在的數據行，填充缺失值、插補缺失值。

4，觀測值的重編碼

數據分析中，一般須要把連續型變量轉換爲定序變量，例如，把學生的成績劃分爲優秀、良好、合格和差4個等級，這種操做也稱做離散化。

當觀測數據所用的單位可能影響數據分析時，還須要對數據進行規範化，經常使用的規範化方法是：最小-最大規範化，標準化變換等。

觀測值的重編碼，後續會有詳細的介紹。

二，描述性統計分析

描述性統計量分爲：集中趨勢、離散程度（離中趨勢）和分佈形態。

1，集中趨勢的描述性統計量

均值：是指一組數據的算術平均數，描述一組數據的平均水平，是集中趨勢中波動最小、最可靠的指標，可是均值容易受到極端值（極小值或極大值）的影響。
中位數：是指當一組數據按照順序排列後，位於中間位置的數，不受極端值的影響，對於定序型變量，中位數是最適合的表徵集中趨勢的指標。
衆數：是指一組數據中出現次數最多的觀測值，不受極端值的影響，經常使用於描述定性數據的集中趨勢。

2，離散程度的描述性統計量

最大值和最小值：是一組數據中的最大觀測值和最小觀測值
極差：又稱全距，是一組數據中的最大觀測值和最小觀測值之差，記做R，通常狀況下，極差越大，離散程度越大，其值容易受到極端值的影響。
方差和標準差：是描述一組數據離散程度的最經常使用、最適用的指標，值越大，代表數據的離散程度越大。

3，分佈形態的描述性統計量

偏度：用來評估一組數據的分佈呈先的對稱程度，當偏度=0時，分佈是對稱的；當偏度>0時，分佈呈正偏態；當偏度<0時，分佈呈負偏態。

峯度：用來評估一組數據的分佈形狀的高低程度的指標，當峯度=0時，分佈和正態分佈基本一直；當峯度>0時，分佈形態高狹；當峯度<0時，分佈形態低闊。

4，頻率分析

頻數分佈分析（又稱頻率分析）主要經過頻數分佈表、條形圖和直方圖、百分位值等來描述數據的分佈特徵。

在作頻數分佈分析時，一般按照定性數據（即分類的類別），統計各個分類的頻數，計算各個分類所佔的百分比，進而獲得頻率分佈表，最後根據頻率分佈表來繪製頻率分佈圖。

5，按照時間遞增的趨勢分析

特殊狀況下，當X軸是日期數據，Y軸是統計量（好比均值、總數量）時，能夠繪製出統計量按照時間遞增的趨勢圖，從圖中能夠看到統計量按照時間增長的趨勢（無變化、遞增或遞減）和週期性。

例如，下圖的X軸是日期，Y軸的統計量是總數量，兩條折線分別是湖北確診病例人數和湖北新增確診病例人數：

三，相關性分析

相關性分析是研究事務之間是否存在某種依存關係，並對具備依存關係的現象進行相關方向和相關程度的分析。

相關程度用相關係數r表示，|r|<=1，r=0表示不相關，一般狀況下，0 < | r | <1表示變量之間存在不一樣程度的線性相關，根據約定的規則：

| r | <=0.3 ：爲弱線性相關或不存在線性相關；
0.3 < | r | <=0.5 ：低度線性相關，認爲存在線性相關，可是相關性不明顯
0.5 < | r | <=0.8 ：顯著線性相關，認爲存在強線性相關，存在明顯的相關性
| r | >0.8 ：高度相關，認爲存在極強的線性相關

參考文檔：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

分析思惟 第四篇：數據分析入門階段——描述性統計分析和相關分析

一，認識變量和數據

二，描述性統計分析

三，相關性分析

分析思惟第四篇：數據分析入門階段——描述性統計分析和相關分析