《深刻淺出統計學》筆記

參考資料:算法

貝氏定理(youtube)函數

第一章 可視化

  1. 垂直柱形圖和橫向柱形圖的區別在於:(1)當文本過長時,通常採用橫向。(2)垂直柱形圖表示頻率,橫向表示百分比。

水平柱狀圖

    • 定性指標:不能轉化成數字表示,通常是一種分類;
    • 定量指標:能夠轉化後數字
  1. 直方圖的柱子之間必須是沒有間隙的,並且寬度同樣

第二章 集中趨勢的度量

  1. 均值的專用符號:U(miu)
  2. 處理頻數:
  3. 異常值會致使偏斜(要麼擡高均值,要麼拉低均值)

  1. 當偏斜數據和異常值使均值產生誤導時,咱們須要用到中位數。
  2. 當數值呈現兩極化的時候(好比:游泳班孩子和家長的年齡),衆數就派上了用場
  3. 衆數是惟一能用於類別數據的平均數。
  4. 均值,中位數,衆數區別:

總結: 均值,中位數和衆數都是平均數,平均數主要用在尋找數據集典型值。學習

第三章 分散性與變異性的量度

  1. 全距 = 最大值 - 最小值; 它僅僅描述了數據的寬度;
  2. 四分位距 = 上四分位距 - 下四分位距

做用:用於排除異常值3d

  1. 箱線圖:用來顯示各類距的圖;若是你的數據中有異常值,全距會很寬。經過觀察箱型圖上的線,就能瞭解數據的偏斜程度。
  2. 方差:量度數據分散狀況
  • 方差速算法:

  1. 標準分:對不一樣數據集中的數據進行比較的一種方法;好比:比較兩位球員相對於他們本人的歷史記錄的表現。
  • 計算公式:

經過上面公式,標準分也能夠解釋爲距離均值的標準差個數cdn

  • 其餘

第四章 機率計算

  1. 維恩圖:畫一個方框表明樣本空間S,而後畫幾個圓圈表明相關事件。

  1. 條件機率P(B|A):在A發生的狀況下發生B的機率。

人話:在A發生的機率下,發生B這個部分佔整個A的比例。對象

能夠採用機率樹來進行計算:blog

  1. 貝氏定理:

人話:以前條件機率求的是在A發生的條件下發生B的機率,but,貝氏定理求的是已經B已經發生了,求B發生的時候正好處於A條件下的機率。排序

好的,舉個例子。事件

如圖,有A1,A2,A3,三輛校車,同時又有事件B-遲到,若是已知條件機率P(B|A1) (表示的是搭上A1後遲到的機率),若是要求P(A1|B),那麼就須要用到貝式公式,此時P(A1|B)表示的是在遲到已經發生的狀況下,打上A1車致使遲到的機率。get

  1. 全機率:

  1. 獨立事件機率:

第五章 離散機率分佈的運用

  1. E(x) 指望:描述的是機率分佈。
  • 計算公式:

  1. 離散方差: 指示結果的分散性

  1. 指望值和方差的通用公式:

第六章 排列與組合

  1. 排列是指從一個較大(n個)對象羣裏中取出必定數目(r個)對象進行排序,並得出排序方式總數目。

  1. 組合:即從n個對象中選取r個對象的選取方式,但此時不準知道所選對象的確切順序。

  1. 排列和組合的區別?

第七章 幾何分佈,二項分佈和泊松分佈

  1. 幾何分佈

幾何分佈的形狀:

如圖,可知取得成功的機率在第一次試驗時最大,也就是說,任何幾何分佈的衆數永遠是1,由於1是具備最大機率的數。

幾何分佈對不等式一樣適用。

  1. 二項分佈

定義:

二項分佈的指望和方差:

二項分佈和幾何分佈的區別:

總結:

  • 二項分佈求成功幾回的機率
  • 幾何分佈求的是第一次成功前要嘗試多少次
  1. 泊松分佈:

背景:爆米花機發生故障的頻率是一週3,4次,要求它下一週不發生故障的概率。

泊松分佈包括如下條件:

  • 單獨事件在給定區間內隨機、獨立地發生,給定區間能夠是時間或空間,例如能夠是一星期,也能夠是一英里。
  • 已知該區間內的事件發生次數,且爲有限值。該事件平均發生次數用\lambda ;

  • 泊松分佈的指望值和方差都是\lambda;

  • 泊松分佈的形狀:

  1. 泊松分佈和二項分佈的關係:當n很大,P很小的時候,二項分佈近似等於泊松分佈,此時用泊松分佈能夠減小計算量。

  1. 泊松分佈,幾何分佈,二項分佈的區別:

  • 某我的正在打保齡球,他擊倒全部球柱的機率爲0.3,若是他能夠投球10次,求他在三次內擊倒全部球柱的機率? --》 二項分佈(求得是3次內出現1次,2次和3次的機率)
  • 一輛公交汽車平均15分鐘會停一站。在15分鐘之內不出現公交汽車的機率有多大? -》泊松分佈(15分鐘內出現1輛車,求的是15min內不出現一輛車的機率,跟機器每週平均癱瘓3.4次,求下一週不癱瘓的機率 這類問題是相似的)
  • 有20%的麥片裏裝有免費玩具,每盒一個。打開不到4只麥片盒就能獲得第一個免費的玩具的機率有多大? -》幾何分佈

第八章 正態分佈

到目前爲止,咱們學習的都是離散的機率分佈,這一章將學習連續型機率分佈。

對於連續型機率分佈,咱們關心的是取的一個特定範圍內的機率。好比:Julley等待約會對象時間超過5min的機率是多少等。

  1. 機率密度函數:用於描述練血隨機變量的機率分佈

機率密度函數f(x):它指出該機率分佈的形狀,經過它咱們能夠求出一個數據範圍內某個連續變量的機率。

2.


明天繼續~

相關文章
相關標籤/搜索