一,基本概念
衆數 出現次數最多的
均值
推論統計,用樣原本推論整體,樣本是整體的子集
方法:多練習,多找實例
二,平均數
平均數:均值、中位數、衆數
加權平均數,同樣是總數/個數。如1出現4次,2出現6次,3出現1次。加權平均=1*4+2*6+3=19
中位數對極值不敏感,1 2 3 4 99 中位數是3,但平均數是20多,不能表明這個數組。
中位數表明個體的中心點,平均數表明值的中心
應用場景
見書
三,變異性,也叫離散度、散佈
平均數,變異性都是統計裏的重要方面,計算每一個數值和均值的差別性
數據分佈共4方面不一樣:平均值、變異性、偏度、峯度
極差:最大值-最小值
標準差:每一個數與均值的平均距離。N-1是爲了使計算的標準差大於實際的,科學家的保守性,不得不出錯,出錯也是太高估計了標準差。
![](http://static.javashuo.com/static/loading.gif)
方差:標準差沒開根號前。通常標準差更具備解釋意義。
四,統計圖表
容易說明問題,
好圖表的十條原則,見書,之後未提到內容均見書:
1,頻數分佈
組距的選擇:選擇包含2,5,10,20個數據點的組距,使得10-20個這樣的組距能夠覆蓋全部數據。
好比有100-400的範圍,咱們想分10個組,則組距爲300/10=30
2,創建直方圖,高度表明頻數。每一個直放表明一組,從小到大排列好。頻數多邊形。都相似的展現。
累計頻數,把頻數疊加起來。
圖的應用:
柱狀圖: 比較不一樣分類的頻數
線圖:表示數據的趨勢,如每一年入學人數變化,
餅圖:佔比例分析,不一樣類別項目的比例分佈
五,計算相關係數
描述兩個變量之間的限行關係,-1 -> 1
兩個變量共享許多特徵,纔有相關性。好比身高和體重,共享了養分,健康情況,基因等等。
皮爾遜係數來計算公式(用於定距和定距變量的相關性,直接用軟件計算):
![](http://static.javashuo.com/static/loading.gif)
散點圖,XY表明兩個變量。徹底相關是不可能的(表明兩個變量共享全部變量),0.7-0.8就是通常統計的最大相關了
關聯並不表明因果,如消費冰淇淋和犯罪率相關度高,僅表明共享了一些特徵。夏天氣溫高,所以冰淇淋消費多,氣溫高,所以開門開窗多,致使犯罪增長
選哪個公式來計算相關係數?見下表
六,有趣的應用 描t值,兩個羣體的獨立均值t檢驗 117頁圖表理解,選檢驗流程 非獨立性t值 一個羣體使用xx前和xx後的對比