參考資料:算法
-貝氏定理(youtube)函數
第一章 可視化
- 垂直柱形圖和橫向柱形圖的區別在於:(1)當文本過長時,通常採用橫向。(2)垂直柱形圖表示頻率,橫向表示百分比。
-
- 定性指標:不能轉化成數字表示,通常是一種分類;
- 定量指標:能夠轉化後數字
- 直方圖的柱子之間必須是沒有間隙的,並且寬度同樣
第二章 集中趨勢的度量
- 均值的專用符號:U(miu)
- 處理頻數:
- 異常值會致使偏斜(要麼擡高均值,要麼拉低均值)
- 當偏斜數據和異常值使均值產生誤導時,咱們須要用到中位數。
- 當數值呈現兩極化的時候(好比:游泳班孩子和家長的年齡),衆數就派上了用場
- 衆數是惟一能用於類別數據的平均數。
- 均值,中位數,衆數區別:
總結: 均值,中位數和衆數都是平均數,平均數主要用在尋找數據集典型值。學習
第三章 分散性與變異性的量度
- 全距 = 最大值 - 最小值; 它僅僅描述了數據的寬度;
- 四分位距 = 上四分位距 - 下四分位距
做用:用於排除異常值3d
- 箱線圖:用來顯示各類距的圖;若是你的數據中有異常值,全距會很寬。經過觀察箱型圖上的線,就能瞭解數據的偏斜程度。
- 方差:量度數據分散狀況
- 標準分:對不一樣數據集中的數據進行比較的一種方法;好比:比較兩位球員相對於他們本人的歷史記錄的表現。
經過上面公式,標準分也能夠解釋爲距離均值的標準差個數;cdn
- 其餘
第四章 機率計算
- 維恩圖:畫一個方框表明樣本空間S,而後畫幾個圓圈表明相關事件。
- 條件機率P(B|A):在A發生的狀況下發生B的機率。
人話:在A發生的機率下,發生B這個部分佔整個A的比例。對象
能夠採用機率樹來進行計算:blog
- 貝氏定理:
人話:以前條件機率求的是在A發生的條件下發生B的機率,but,貝氏定理求的是已經B已經發生了,求B發生的時候正好處於A條件下的機率。排序
好的,舉個例子。事件
如圖,有A1,A2,A3,三輛校車,同時又有事件B-遲到,若是已知條件機率P(B|A1) (表示的是搭上A1後遲到的機率),若是要求P(A1|B),那麼就須要用到貝式公式,此時P(A1|B)表示的是在遲到已經發生的狀況下,打上A1車致使遲到的機率。get
- 全機率:
- 獨立事件機率:
第五章 離散機率分佈的運用
- E(x) 指望:描述的是機率分佈。
- 離散方差: 指示結果的分散性
- 指望值和方差的通用公式:
第六章 排列與組合
- 排列是指從一個較大(n個)對象羣裏中取出必定數目(r個)對象進行排序,並得出排序方式總數目。
- 組合:即從n個對象中選取r個對象的選取方式,但此時不準知道所選對象的確切順序。
- 排列和組合的區別?
第七章 幾何分佈,二項分佈和泊松分佈
- 幾何分佈
幾何分佈的形狀:
如圖,可知取得成功的機率在第一次試驗時最大,也就是說,任何幾何分佈的衆數永遠是1,由於1是具備最大機率的數。
幾何分佈對不等式一樣適用。
- 二項分佈
定義:
二項分佈的指望和方差:
二項分佈和幾何分佈的區別:
總結:
- 二項分佈求成功幾回的機率
- 幾何分佈求的是第一次成功前要嘗試多少次
- 泊松分佈:
背景:爆米花機發生故障的頻率是一週3,4次,要求它下一週不發生故障的概率。
泊松分佈包括如下條件:
- 單獨事件在給定區間內隨機、獨立地發生,給定區間能夠是時間或空間,例如能夠是一星期,也能夠是一英里。
- 已知該區間內的事件發生次數,且爲有限值。該事件平均發生次數用\lambda ;
-
泊松分佈的指望值和方差都是\lambda;
-
泊松分佈的形狀:
- 泊松分佈和二項分佈的關係:當n很大,P很小的時候,二項分佈近似等於泊松分佈,此時用泊松分佈能夠減小計算量。
- 泊松分佈,幾何分佈,二項分佈的區別:
- 某我的正在打保齡球,他擊倒全部球柱的機率爲0.3,若是他能夠投球10次,求他在三次內擊倒全部球柱的機率? --》 二項分佈(求得是3次內出現1次,2次和3次的機率)
- 一輛公交汽車平均15分鐘會停一站。在15分鐘之內不出現公交汽車的機率有多大? -》泊松分佈(15分鐘內出現1輛車,求的是15min內不出現一輛車的機率,跟機器每週平均癱瘓3.4次,求下一週不癱瘓的機率 這類問題是相似的)
- 有20%的麥片裏裝有免費玩具,每盒一個。打開不到4只麥片盒就能獲得第一個免費的玩具的機率有多大? -》幾何分佈
第八章 正態分佈
到目前爲止,咱們學習的都是離散的機率分佈,這一章將學習連續型機率分佈。
對於連續型機率分佈,咱們關心的是取的一個特定範圍內的機率。好比:Julley等待約會對象時間超過5min的機率是多少等。
- 機率密度函數:用於描述練血隨機變量的機率分佈
機率密度函數f(x):它指出該機率分佈的形狀,經過它咱們能夠求出一個數據範圍內某個連續變量的機率。
2.
明天繼續~