6-統計學-描述統計

1.什麼是統計學,什麼是描述統計,什麼是推斷統計

統計學(statistics):收集、處理、分析、解釋數據並從數據中得出結論的科學。數據庫

描述統計(discriptive statistics)工具

描述統計(discriptive statistics):研究的是數據收集、處理、彙總、圖表描述、歸納與分析等統計方法。
描述統計其實就是對數據進行整體特徵的概述,例子:說一下班級此次考試的狀況如何spa

推斷統計(inferential statistics)設計

推斷統計(inferential statistics):是研究如何利用樣本數據來推斷整體特徵的統計方法
推斷統計實際上是創建在描述統計的基礎之上,在對整體數據有了大體的瞭解以後,運用一些分析方法,對數據進行預測,並達到統計決策的目的,其實不論是在統計學上,仍是在實際的業務分析中,咱們作分析的終極目的就是用來得出咱們結論,應用於決策。例如:房價預測,經過預測數據來進行銷售,用戶看到房價走勢,若是一路走高,是否是要提前下手。3d

2.統計研究的步驟

一、設計code

全過程最關鍵的一步,良好的開端是成功的一半 選題--明確研究目的--提出假設--明確整體範圍--確立觀察指標--控制研究中的偏移--給出具體的研究方案orm

二、收集blog

收集數據,來源數據庫,問卷等ip

三、整理io

數據整理很是重要,如今的數據處理工具也比較好用,必定要把數據清洗乾淨,數據清洗好了才能得出正確的結論

四、分析

統計描述:瞭解樣本數據的狀況,是所有工做的基礎,是儘可能精確、直觀而全面的對所得到的樣本進行呈現

統計推斷:從樣本信息外推到整體,以得到對所感興趣問題的解答

參數估計:樣本---->所在整體特徵

3.描述統計

 

從圖中咱們能夠獲取什麼?

集中趨勢
高峯組段在什麼位置

離散趨勢
數據分佈範圍是什麼,分散程度如何

分佈形狀
是否對稱,分佈曲線的形狀

正負偏

分佈特徵
偏態 峯態

集中趨勢

均數(mean)

描述一組數據在數量上的平均水平

整體均數和樣本均數的符號

均數的優勢:

  • 高度濃縮了數據的精華,使大量的觀測數據轉變成一個表明性的數值。比較敏感,數據任何一個值發生變化,均數都會隨之改變。
  • 你們熟知、都比較喜歡用、便於比較和傳播

均數的缺點:

  • 大鍋飯:把各個觀測數據之間的差別性掩蓋了
  • 均數受極值的影響很大

中位數(Median)

在均數很差用的時候,咱們能夠考慮使用中位數

將全體數據從小到大排列,在整個數列中處於中間位置的那個值就是中位數

個數爲奇數的中間的那個數字, 個數爲偶數中間倆個數字相加除以2

 

中位數的優勢:

不受極端值的影響,在具備個別極大或極小值的分佈數列中,中位數比均數更具備表明性

中位數的缺點:

不是全部人都能理解

損失信息:只考慮居中位置,其餘變量值比中位數大多少或小多少,它沒法反映出來,因此咱們也是隻能看到部分信息。

中位數的應用場景:對於對稱性的數據,優先均數,僅僅對於均數不能使用的狀況才使用中位數加以描述。

衆數

一組數據當中,出現次數最多的那個數,工做中用的不多

Excel如何使用:均數、中位數、衆數

均數:average()

中位數:median()

衆數:mode()

離散趨勢

提問:若是用平均數來表明樣本平均水平的話,對個體而言,什麼指標能夠表明其離散程度大小

離均差:x-μ

個體偏離均值的程度

提問:能否用離均差的總和來表示整個樣本的離散程度

不能夠,離均差有正負之分,加和會抵消爲0

那怎麼辦,怎麼解決正負號的問題?

能夠考慮絕對值

but這種方式不便於計算

該怎麼辦,怎麼找到一種既好算,又能處理正負號的問題?

離均差的平方和

可是若是比較兩個樣本的離均差,一個樣本量是10個,一個是1000個,實際上兩者的離散程度是同樣的,可是由於數量不一樣,形成平方和相加和數值差別很大,這該怎麼辦?

顯然,咱們發現離均差平方和的大小跟樣本量有關

若是咱們可以把離均差平方和/樣本量,是否是就解決了這個問題

那其實這個就是方差的概念

整體方差公式

整體標準差=離均差平方和/樣本量

方差開根號,是咱們平常生活中經常使用的表明離散程度的指標

可是在實際的工做中,咱們對於整體的數據每每是沒法獲取的,因此一般是經過隨機抽取部分樣本數據進行計算,所以公式稍微有點差異

樣本標準差

變異係數

變異係數 = 標準差/均值

變異係數解決了不一樣樣本變異程度對比的問題

常見的四分位數

P2五、P50和P75分位數分別稱做下四分位數,中位數 上四分位數

Exce實現

方差:var.s(num1,num2,....)

標準差:stdev.s(num1,num2,....)

變異係數:標準差/均值

百分位數:percentile.inc(array,k)

四分位數:quartile.inc(array,k)

分佈形狀

針對某種分佈進行進一步的特徵描述,常見的是用於正態分佈的兩個指標

  • 偏度係數 正態 正偏態 負偏態
  • 峯度係數 正態 平闊峯 尖峭峯

 

 

 

 

 

 

 

Excel實現

偏度:skew()

峯度:kurt()

相關文章
相關標籤/搜索