統計學(statistics):收集、處理、分析、解釋數據並從數據中得出結論的科學。數據庫
描述統計(discriptive statistics)工具
描述統計(discriptive statistics):研究的是數據收集、處理、彙總、圖表描述、歸納與分析等統計方法。
描述統計其實就是對數據進行整體特徵的概述,例子:說一下班級此次考試的狀況如何spa
推斷統計(inferential statistics)設計
推斷統計(inferential statistics):是研究如何利用樣本數據來推斷整體特徵的統計方法
推斷統計實際上是創建在描述統計的基礎之上,在對整體數據有了大體的瞭解以後,運用一些分析方法,對數據進行預測,並達到統計決策的目的,其實不論是在統計學上,仍是在實際的業務分析中,咱們作分析的終極目的就是用來得出咱們結論,應用於決策。例如:房價預測,經過預測數據來進行銷售,用戶看到房價走勢,若是一路走高,是否是要提前下手。3d
一、設計code
全過程最關鍵的一步,良好的開端是成功的一半 選題--明確研究目的--提出假設--明確整體範圍--確立觀察指標--控制研究中的偏移--給出具體的研究方案orm
二、收集blog
收集數據,來源數據庫,問卷等ip
三、整理io
數據整理很是重要,如今的數據處理工具也比較好用,必定要把數據清洗乾淨,數據清洗好了才能得出正確的結論
四、分析
統計描述:瞭解樣本數據的狀況,是所有工做的基礎,是儘可能精確、直觀而全面的對所得到的樣本進行呈現
統計推斷:從樣本信息外推到整體,以得到對所感興趣問題的解答
參數估計:樣本---->所在整體特徵
從圖中咱們能夠獲取什麼?
集中趨勢
高峯組段在什麼位置
離散趨勢
數據分佈範圍是什麼,分散程度如何
分佈形狀
是否對稱,分佈曲線的形狀
正負偏
分佈特徵
偏態 峯態
描述一組數據在數量上的平均水平
整體均數和樣本均數的符號
均數的優勢:
- 高度濃縮了數據的精華,使大量的觀測數據轉變成一個表明性的數值。比較敏感,數據任何一個值發生變化,均數都會隨之改變。
- 你們熟知、都比較喜歡用、便於比較和傳播
均數的缺點:
- 大鍋飯:把各個觀測數據之間的差別性掩蓋了
- 均數受極值的影響很大
在均數很差用的時候,咱們能夠考慮使用中位數
將全體數據從小到大排列,在整個數列中處於中間位置的那個值就是中位數
個數爲奇數的中間的那個數字, 個數爲偶數中間倆個數字相加除以2
中位數的優勢:
不受極端值的影響,在具備個別極大或極小值的分佈數列中,中位數比均數更具備表明性
中位數的缺點:
不是全部人都能理解
損失信息:只考慮居中位置,其餘變量值比中位數大多少或小多少,它沒法反映出來,因此咱們也是隻能看到部分信息。
中位數的應用場景:對於對稱性的數據,優先均數,僅僅對於均數不能使用的狀況才使用中位數加以描述。
一組數據當中,出現次數最多的那個數,工做中用的不多
均數:average()
中位數:median()
衆數:mode()
提問:若是用平均數來表明樣本平均水平的話,對個體而言,什麼指標能夠表明其離散程度大小
個體偏離均值的程度
提問:能否用離均差的總和來表示整個樣本的離散程度
不能夠,離均差有正負之分,加和會抵消爲0
那怎麼辦,怎麼解決正負號的問題?
能夠考慮絕對值
but這種方式不便於計算
該怎麼辦,怎麼找到一種既好算,又能處理正負號的問題?
求離均差的平方和
可是若是比較兩個樣本的離均差,一個樣本量是10個,一個是1000個,實際上兩者的離散程度是同樣的,可是由於數量不一樣,形成平方和相加和數值差別很大,這該怎麼辦?
顯然,咱們發現離均差平方和的大小跟樣本量有關
若是咱們可以把離均差平方和/樣本量,是否是就解決了這個問題
那其實這個就是方差的概念
整體標準差=離均差平方和/樣本量
方差開根號,是咱們平常生活中經常使用的表明離散程度的指標
可是在實際的工做中,咱們對於整體的數據每每是沒法獲取的,因此一般是經過隨機抽取部分樣本數據進行計算,所以公式稍微有點差異
變異係數 = 標準差/均值
變異係數解決了不一樣樣本變異程度對比的問題
P2五、P50和P75分位數分別稱做下四分位數,中位數 上四分位數
方差:var.s(num1,num2,....)
標準差:stdev.s(num1,num2,....)
變異係數:標準差/均值
百分位數:percentile.inc(array,k)
四分位數:quartile.inc(array,k)
針對某種分佈進行進一步的特徵描述,常見的是用於正態分佈的兩個指標
- 偏度係數 正態 正偏態 負偏態
- 峯度係數 正態 平闊峯 尖峭峯
偏度:skew()
峯度:kurt()