數據分析的入門思惟,首先要認識數據,而後對數據進行簡單的分析,好比描述性統計分析和相關性分析等。編碼
變量和數據是數據分析中經常使用的概念,用變量來描述事物的特徵,而數據是變量的具體值,把變量的值也叫作觀測值。3d
1,變量blog
變量是用來描述整體中成員的某一個特性,例如,性別、年齡、身高、收入等。事務
變量能夠分爲:文檔
2,數據數據分析
數據是變量的具體值,按照變量的類型,能夠把數據分爲:分類數據、順序數據和數值型數據。入門
按照數據分析的目的,能夠把數據分爲實驗組(Treatment)和參照組(Control)。變量
按照數據的類型,能夠把數據分爲:文本數據、數值型數據和日期時間數據。方法
3,缺失值im
不是全部的數據都是完整的,有些觀測值可能會缺失,對於缺失值,一般的處理方式是:刪除缺失值所在的數據行,填充缺失值、插補缺失值。
4,觀測值的重編碼
數據分析中,一般須要把連續型變量轉換爲定序變量,例如,把學生的成績劃分爲優秀、良好、合格和差4個等級,這種操做也稱做離散化。
當觀測數據所用的單位可能影響數據分析時,還須要對數據進行規範化,經常使用的規範化方法是:最小-最大規範化,標準化變換等。
觀測值的重編碼,後續會有詳細的介紹。
描述性統計量分爲:集中趨勢、離散程度(離中趨勢)和分佈形態。
1,集中趨勢的描述性統計量
2,離散程度的描述性統計量
3,分佈形態的描述性統計量
偏度:用來評估一組數據的分佈呈先的對稱程度,當偏度=0時,分佈是對稱的;當偏度>0時,分佈呈正偏態;當偏度<0時,分佈呈負偏態。
峯度:用來評估一組數據的分佈形狀的高低程度的指標,當峯度=0時,分佈和正態分佈基本一直;當峯度>0時,分佈形態高狹;當峯度<0時,分佈形態低闊。
4,頻率分析
頻數分佈分析(又稱頻率分析)主要經過頻數分佈表、條形圖和直方圖、百分位值等來描述數據的分佈特徵。
在作頻數分佈分析時,一般按照定性數據(即分類的類別),統計各個分類的頻數,計算各個分類所佔的百分比,進而獲得頻率分佈表,最後根據頻率分佈表來繪製頻率分佈圖。
5,按照時間遞增的趨勢分析
特殊狀況下,當X軸是日期數據,Y軸是統計量(好比均值、總數量)時,能夠繪製出統計量按照時間遞增的趨勢圖,從圖中能夠看到統計量按照時間增長的趨勢(無變化、遞增或遞減)和週期性。
例如,下圖的X軸是日期,Y軸的統計量是總數量,兩條折線分別是湖北確診病例人數和湖北新增確診病例人數:
相關性分析是研究事務之間是否存在某種依存關係,並對具備依存關係的現象進行相關方向和相關程度的分析。
相關程度用相關係數r表示,|r|<=1,r=0表示不相關,一般狀況下,0 < | r | <1表示變量之間存在不一樣程度的線性相關,根據約定的規則:
參考文檔: