關於機率分佈理論的原理分析的一些討論,以及經典機率分佈的應用場景,以及機率統計其在工程實踐中的應用

1. 隨機變量定義

0x1:爲何要引入隨機變量這個數學概念

在早期的古典機率理論研究中,人們基於隨機試驗的樣本空間去研究隨機事件,也發展出了很是多輝煌的理論,包括著名的貝葉斯估計在內。html

可是隨着研究的不斷深刻,遇到問題的不斷複雜化,科學家們發現面對的問題也不只僅是拋色子,口袋裏摸球、拋硬幣伯努利試驗這樣的簡單問題,而是更加複雜的問題,例如python

  • 多個隨機試驗的組合問題:例如考慮n個伯努利隨機試驗中某個事件發生次數的隨機變量
  • 非實數型的樣本空間:例如氣候分析、水文模擬與預測等複雜問題,顯然,這個時候樣本空間就不必定都是數集了

繼續使用隨機事件樣本空間這種集合論數學工具進行問題分析和定量研究遇到了愈來愈多的困難。算法

爲了能對更復雜的問題進行抽象建模,進行定量的機率公式化處理,所以,經過引入隨機變量,將樣本空間這個集合概念轉化爲一個無量綱的數集(函數概念),使得能統一地處理各類隨機現象。安全

同時由於隨機變量本質是函數範疇體系內的定義,所以還能夠藉助函數分析相關的數學工具展開對隨機事件的定量分析,這使得機率論的發展又跨了一個大的臺階。網絡

須要注意的是,對於隨機變量來講,樣本空間中的樣本不必定是等概的。在實際工程中,非等概模型纔是更加廣泛和通常的狀況,隨機事件的樣本集空間中不一樣元素的發生機率通常不可能都是等概的。等概摡型只是離散型隨機變量裏一個特例。app

0x2:隨機變量的抽象定義

在隨機試驗E中,Ω是相應的樣本空間,若是對Ω中的每個樣本點w,有惟一一個實數 X(w) 與之對應,那麼就把這個定義域爲Ω的單值實值函數 X=X(w) 稱爲(一維)隨機變量。框架

函數 X(w) 的的定義域對應於隨機變量的樣本空間,記做,固然,隨機事件只會在一些區間內有機率的定義,在其餘區間上機率爲0。機器學習

站在試驗前的立場看,咱們不知道試驗結果將出現樣本空間Ω中的哪一個樣本點,即不知道隨機變量將會取中的哪個數。從這個意義上說,隨機變量的取值是隨機的。函數

機率論的一個基本任務就是研究隨機變量取值的統計規律性,而引入機率分佈函數的目的也是爲了更好地研究統計規律的數學特性。工具

0x3:隨機變量的分類

從嚴格理論定義上來看,隨機變量可分爲:

  • 離散型隨機變量:若是1個隨機變量只可能取有限個或可列無限個值(即它的值域是1個有限集或可列無限集),那麼便稱這個隨機變量爲(一維)離散型隨機變量。
  • 非離散型隨機變量:連續型隨機變量的取值充滿了數軸上的一個區間(或某幾個區間的並),在這個區間裏有無窮不可列個實數,所以當咱們描述連續型隨機變量時,用來描述離散型隨機變量的分佈律就無法繼續使用,須要改用機率密度函數來表示。

在非離散型隨機變量中,連續型隨機變量是最多見也是佔比最多的,咱們本文主要討論連續型隨機變量。但讀者要明白的是,並非只有離散和連續型隨機變量這兩種。

Relevant Link:

《機率論與數理統計》同濟大學數學系 第二章 - 第一節

 

2. 隨機變量的機率密度與機率分佈

0x1:爲何要研究隨機變量的機率密度與機率分佈PDF

1. 現實世界不是肯定性的,而是機率性的 - 上帝會擲色子

現實世界中大量複雜問題其狀態受到大量內在和外在因素的影響,想要完全掌握這類事物的內在規律並對將來可能發生的狀態變換做出預測,就須要數據科學家經過數據分析、機率建模等方式,尋找一個或一組機率分佈公式。

那爲何必定是機率分佈函數呢?而不能是一個像愛因斯坦質能方程那樣的精確性的映射函數呢?

理解這個問題,須要回望一些歷史,自從混沌理論和非線性動力學理論問世以來,動力學系統「內在隨機性」的存在,使得肯定論再也不佔統治地位,它與隨機方法論之間的鴻溝已經逐步填補。從辨證惟物天然觀來看,肯定論的數學模型只是紛繁複雜的大天然現象因果規律的一種理想化描述。在現實世界中,「量」的方面的數學的無窮性,比起「質」的方面的無涯無盡性來講,是極爲粗淺的。不管怎樣複雜的方程式都不多是實際現象的無限複雜性的等價反映,它們充其量不過是相對精確或相對逼真地描述了現象,而不是現象自己的所有寫照。

接下來的問題就是,如何找到這種「機率分佈函數」呢?或者說如何找到這個「上帝」呢?這就是接下來要談的機率密度估計。 

2. 機率密度估計 - 尋找機率分佈函數的方法

對於給定的一個數據集合,咱們認爲這個數據集合來自於某個隨機變量,而且這個隨機變量具備某種機率分佈P(X)。找到這個機率分佈P(X)的過程叫作密度估計(density estimation)。

須要注意的是密度估計問題是一個很困難的問題,由於世界上的機率密度函數不可勝數,可以近似擬合機率密度函數也是如此之多。選擇一個合適的P(X)是模型選擇問題,在機器學習領域常常碰見。

固然,這僅僅是生成式模型學派須要頭疼的問題,若是忽略這些細節,經過設計深度神經網絡獲得一個判別式模型,只要關心最終的結果效果是否好,泛化能力是否強便可。

0x2:離散型隨機變量的分佈律與機率分佈 

1. 離散隨機變量的機率(質量)函數(probability density function, PDF)/分佈律

要掌握一個離散型隨機變量取值的統計規律(即分佈),除了必須知道它的樣本空間值域外,還須要知道它取各個可能值的機率,其實就是函數分析中的定義域和值域分析的概念。

設隨機變量X的值域爲,對於每一個 i = 1,2,....,X的取值爲ai的機率爲:

按照機率的定義與性質,p1,p2,.... 須要知足下列性質:

  • 非負性:
  • 樣本空間完備性:

咱們稱爲隨機變量 X 的機率(質量)函數分佈律

2. 離散隨機變量的機率分佈函數

通常地,對一個隨機事件E來講,對樣本空間中任意一個子集合S,有: 

 

上述計算公式本質上由機率的加法公式推出,由於諸事件{X =ai}(i=1,2,...)是兩兩互不相容的。

離散隨機變量的分佈函數就是離散分佈律在某個樣本集區間上的累加,只是這個樣本區間是一個形如[-∞,Smax]的區間。

設X是一個隨機變量,對於任意實數x,稱函數爲隨機變量X的分佈函數。

對任意的兩個實數,有

所以,只要已知X的分佈函數,就能夠知道X落在任一區間 (a,b) 內的機率,能夠看到,分佈函數能夠完整的描述一個隨機變量的統計規律性。

相比於機率密度,分佈函數度量的是區間的累計機率,是一個事件集合的整體發生機率。 

能夠看到,機率分佈函數本質上是機率密度函數的積分,因此也叫累計機率函數(cumulative distribution function,CDF),也能夠簡稱機率分佈函數

反過來,機率密度函數也是機率分佈函數的導數。

3. 離散隨機變量機率分佈函數性質

咱們經過一個例子來講明離散隨機變量機率分佈函數的性質。

設一個盒子中裝有10個球,其中:

  • 5個球上標有數字1
  • 3個球上標有數字2
  • 2個球上標有數字3

從中任取一球,記隨機變量X表示爲「取得的球上標有的數字」,求X的分佈函數F(x)。

咱們先來求其離散分佈律,知道離散分佈律後就能夠天然獲得分佈函數。

根據題意可知,隨機變量X可取 1,2,3,這個問題相對比較簡單,摸球是一個等概事件,所以由古典概型的計算公式,可知對應的隨機事件的機率值分別爲:

  • 取到數字1的球:0.5
  • 取到數字2的球:0.3
  • 取到數字3的球:0.2

接下來,分佈函數的定義爲F(x) = P(X <= x),所以有:

  • x < 1:P(X <= x)= 0
  • 1 <= x < 2:P(X <= x)= P(X = 1)= 0.5
  • 2 <= x < 3:P(X <= x)= P(X = 1)+ P(X = 2)= 0.5 + 0.3 = 0.8
  • x >= 3:P(X <= x)= P(X = 1)+ P(X = 2)+ P(X = 3)= 0.5 + 0.3 + 0.2 = 1

F(x)的圖形以下圖所示,python生成代碼爲:

# -*- coding: utf-8 -*-

from pylab import *


if __name__ == '__main__':
    x = linspace(-2,8,200)

    y = []
    for i in x:
        if i<1:
            y.append(0.)
        elif (i>=1 and i<2):
            y.append(0.5)
        elif (i>=2 and i<3):
            y.append(0.8)
        else:
            y.append(1.)
     
     print y

    plot(x,y),show()

它是一條階梯型的曲線,在X的每一個可能取值處 1,2,3 處有連續的階躍點,每次跳躍的高度就是X在該取值點的累計機率。

具體來講,任一分佈函數F(x)有以下性質:

  • 0 ≤ F(x) ≤ 1,
  • F(x)是單調不減的,即當x1 <x2 時,F(x1)≤F(x2)
  • F(x) 在 (-∞,∞) 上每一點處至少右連續 

4. 常見離散型隨機變量的機率密度函數(分佈律)

因爲機率分佈函數刻畫了一個離散型隨機變量取值的統計規律性,所以,物理世界中存在的機率分佈函數能夠說是無窮無盡的。科學共同體內的科學家根據本身的專業領域知識,尋找並創建了不一樣的機率解釋模型,對本專業的實際物理現象進行解釋以及預測。

筆者在這章會討論一些常見的離散型機率分佈函數,並簡單討論其在工程中的應用,對於在更復雜工業場景中機率分佈函數的應用的討論筆者會放在以後的章節中。

1)二項分佈

1.1)二項分佈數學定義

二項分佈考察的是屢次原子隨機事件總體呈現出的統計機率特徵。

設單次隨機試驗爲伯努利試驗(實驗結果只有2種對立的可能,即樣本空間只有2個元素),在n重獨立伯努利試驗中,設隨機變量X表示n次試驗中事件A發生的次數,因此有,X的機率密度函數(分佈律)爲:

稱這個隨機變量X服從參數爲n,p的二項分佈,記做, 其 中 0 < p < 1。二項分佈函數的形態徹底由(n,p)兩個參數決定。

筆者認爲,二項分佈抽象的是這樣一類事物:某系統的時域或空域狀態由一系列的子步驟組成,每一個子步驟都符合一個特定的二元對立的機率密度函數(即只有兩種可能,且發生的機率固定),咱們設這兩個對立事件爲事件A和事件B。如今假設系統在時域或空域上通過了n步,二項分佈須要評估的是在這n步中,事件A和事件B分別發生了多少次,即這兩個對立事件對最終系統狀態的貢獻度分別是多少。二項分佈評估的是某系統達到某種狀態時,各個基礎隨機事件的貢獻比,不考慮內部過程,只看結果。

1.2)二項分佈的函數分析意義

二項分佈密度函數(分佈律)是離散型分佈,機率密度直方圖是躍階式的。

咱們能夠從二項式的平方公式分解的角度來看二項分佈的分佈律。

例如,p=q=1/2,各項的機率可寫做:

上式就是二項分佈分佈律的累加式。

設p表示事件發生,q表示事件未發生。

當p=q時:機率密度直方圖是對稱的,例以下面的楊輝三角

當p≠q時:直方圖呈偏態:

p<q:直方圖朝右邊傾斜,表示p(事件發生)的密度較低,在n次伯努利實驗中,整體結果更傾向於更少的p(事件發生)次數。

p>q:直方圖朝左邊傾斜,相反

若是n很大(當p<q且np≥5,或p>q且nq≥5),即便p≠q,偏態逐漸下降,最終近似等於正態分佈,二項分佈的極限分佈爲正態分佈,能夠用正態分佈的機率做爲近似值。關於這個結論的證實,咱們在後面討論正態分佈的時候會詳細說明。

1.3)二項分佈的應用條件
  • 各觀察單位只能具備相互對立的一種結果,如陽性或陰性,生存或死亡等,屬於兩分類資料
  • 已知發生某一結果(陽性)的機率爲π,其對立結果的機率爲1-π,實際工做中要求π是從大量觀察中得到比較穩定的數值
  • n次試驗在相同條件下進行,且各個觀察單位的觀察結果相互獨立,即每一個觀察單位的觀察結果不會影響到其餘觀察單位的結果。如要求疾病無傳染性、無家族性等
1.4)二項分佈的簡單案例

題目爲:從積累的資料看,某條流水線生產的產品中,一級品率爲90%,今從某天生產的1000件產品中,隨機地抽取20件做檢查。試求恰有18件一級品的機率。

題目看起來文字挺多,其實無用的信息不少,咱們抽象爲隨機事件,能夠歸納爲:

設產品抽檢結果爲隨機試驗E,抽檢結果爲離散隨機事件X,樣本空間爲{合格、不合格},隨機事件X的分佈律爲P(X=合格) = 0.9,P(X=不合格) = 0.1。如今基於隨機試驗E進行n重伯努利實驗Y,即X~B(n,p) = X~B(20,0.9),並求P(Y=18)的機率值。

根據二項分佈機率公式可得:

 

2)超幾何分佈 

2.1)超幾何分佈的物理意義

要討論超幾何分佈的物理意義,首先須要先回顧下二項分佈的物理意義,咱們能夠從不一樣的角度來看二項分佈:

  • 抽樣實驗角度:二項分佈是創建在有放回抽樣的基礎上的,也就是抽出一個樣品測量或處理完後再放回去,而後抽下一個
  • 信號衝擊響應系統:二項分佈表明的是時移不變性的信號,也就是說,隨着時間的進行(隨機試驗的進行),信息系統自己的性質(機率密度)不會發生變化

如今咱們將問題複雜化,即進行無放回抽樣(機率密度隨着時移而改變)的隨機試驗,這時,傳統的二項分佈沒法處理這種狀況。

超幾何分佈就是這種背景下被提出,用來計算在無放回抽樣狀況下,機率密度和機率分佈的建模問題。

2.2)超幾何分佈數學公式

設隨機變量X,假定在 N 件產品中有 M 件不合格品,即這批產品的不合格率 p= M/N。從這批產品中隨機地抽取n件做檢查,發現有X件是不合格品,則 X 的機率密度函數爲

則稱這個隨機變量X服從參數爲(N,M,n)的超幾何分佈

這種抽樣檢查方法實質上等價於無放回抽樣,若是採用有放回抽樣的檢查方法,那麼,超幾何分佈會退化爲二項分佈,即當 M = Np 時,有:

在實際的工程開發中,當整體的容量N不大時,要用超幾何分佈來計算,若是N很大而n很小(N ≥10n),無論是不是放回抽樣,均可以用二項分佈來近似計算,也就是能夠將無放回抽樣近似看出有放回抽樣,由於當N遠大於n時,不放回致使機率密度函數的變化小到能夠忽略不計,這種近似轉化的思想在數學裏很常見,在面對複雜問題的時候尤爲有用。

3)泊松分佈

3.1)泊松分佈數學公式

泊松分佈是1837年法國數學家泊松(Poisson,1781-1840年)首次提出的。

設隨機變量X的取值爲0,1,....,n,相應的分佈律爲:

稱這個隨機變量X服從參數爲λ的泊松分佈,記做X ~ P (λ),其中,λ > 0。 

公式自己很簡單,咋一看是一個徹底新的機率公式,但其實泊松分佈是二項分佈在大數定律下的近似等價,是大數定律的最好體現(小數世界的隨機性和大數據世界的統計規律性),咱們接下來一塊兒推導分析下。

3.2)泊松定理推導分析

讓咱們以某段時間內發生的交通事故次數爲例。咱們把這段時間記爲[0,1),取一個很大的天然數n(大數定理),將時間段等分爲n段,記每段的區間爲[公式]=[[公式],[公式])。

根據試驗後驗統計,在整個時間區間內共發生λ起事件,所以當n足夠大時,能夠假定在每段小區間內,發生一次事故的機率爲λ/n。又由於n很大,因此能夠假定在每段小區間內至多發生一次事故,所以就有p = λ/n,np = λ。

同時,每段小區間內是否發生事故是相互獨立的。

以上條件說明該事件知足二項分佈的成立條件,所以能夠用二項分佈進行推導。

設隨機變量X爲在 [0,1)時間段內發生事故的總次數,則有:

X~B(n,λ/n),P(X=i)=

根據假定,令n[公式],則有以下近似等價式:

  • [公式]/[公式]=[公式]=[公式]
  • [公式]=[公式]=[公式][公式]:級數求和公式。

代入上面二項分佈公式,二項分佈機率分佈表達式即化爲泊松分佈機率分佈表達式

能夠看到,相比於二項分佈,泊松分佈的計算量更小,在超大數據的狀況下,每每採用泊松分佈來近似等價二項分佈的計算。

筆者本身的觀點認爲,泊松分佈和二項分佈本質區別就是先天經驗先驗和後天試驗經驗的不一樣視角的體現,具體來講就是:

  • 在小數世界中,實驗次數較少,咱們主要依靠先天經驗來設置先驗機率做爲隨機事件的機率,這就是二項分佈
  • 在大數世界中,實驗次數較多,咱們能夠更多地依靠後天試驗的後驗結果做爲隨機事件的機率,這就是泊松分佈
3.3)泊松分佈的簡單應用

某臺儀器,由1000個元件裝配而成,根據大量歷史經驗,每一元件在一年工做期間發生故障的機率爲0.002,且各元件之間相互獨立,求在一年內有2個元件發生故障的機率。

設X表示「發生故障的元件數」,則X~B(1000,0.002)。

因爲n=1000較大,p=0.002較小,且np=2大小適中,因此可用泊松分佈來近似計算該二項分佈的值

 

Relevant Link:

https://zhuanlan.zhihu.com/p/26433704

4)幾何分佈

4.1)幾何分佈數學定義

在伯努利試驗中,記每次試驗中A事件發生的機率P(A) = p(0<p<1),設隨機變量X表示A事件首次出現時已經試驗的次數,則X的的取值爲1,2,....,n,....,對應的分佈律爲:

稱這個隨機變量 X 服從參數爲p的幾何分佈,記爲X~Ge(p)。

4.2)幾何分佈的無記憶性

由幾何分佈的機率函數獲得:

所以有:

這個推導過程反映了幾何分佈的一種特性,即無記憶性

 

0x3:連續型隨機變量的機率密度函數與機率分佈 

1. 連續型隨機變量機率密度函數

設E是隨機試驗,Ω是相應的樣本空間,X是Ω上的隨機變量,F(x)是X的分佈函數,若存在非負函數f(x)使得:

則稱X爲(一維)連續型隨機變量,f(x)稱爲X的機率密度函數。

2. 連續型隨機變量的機率分佈函數

密度函數f(x)與分佈函數F(x)之間的關係以下圖所示.如今,F(x) = P (X ∈ (-∞,x]),即f(x)在區間(-∞,x]上的積分。

3. 連續型隨機變量的性質

連續型隨機變量具備下列性質:

  • F(x)是連續函數,且當f(x)在x=x0 處連續時,F′(x0)=f(x0)
  • 對任意一個常數c,-∞ < c < ∞,P(X = c) = 0,須要注意的是,這個性質對離散型隨機變量是不成立的,偏偏相反,離散型隨機變量計算的就是「點點機率」。
  • 對任意兩個常數a,b,-∞ < a < b < ∞, 

4. 連續型隨機變量機率密度和分佈函數性質

按照連續型隨機變量分佈函數的特徵性質,連續型隨機變量密度函數必須知足下列兩個條件:

  • f(x) ≥ 0,-∞ < x < ∞ 

這兩個條件刻畫了密度函數的特徵性質,即若是某個實值函數f(x)具備這兩條性質,那麼,它一定是某個連續型隨機變量的密度函數,理論上機率密度函數是無限的。  

例如,當f1(x),f2(x)都是機率密度函數時,只要c1,c2 ≥0,c1+c2 =1。則c1f1(x)+c2f2(x)也是一個密度函數,由於不難驗證它是知足上述兩個條件的。這代表機率密度函數是能夠進行線性組合的,這大大增強了使用機率分佈函數對物理世界的具體現象進行建模分析的能力。

5. 常見連續型隨機變量的機率密度函數

1)均勻分佈

1.1)均勻分佈數學定義

設X爲隨機變量,對任意的兩個實數a,b(a<b),機率密度函數爲:

則稱隨機變量X服從區間(a,b)上的均勻分佈,記爲X~U(a,b)。

密度函數以下:

1.2)均勻分佈機率分佈函數

若X~U(a,b),則相應的機率分佈函數爲:

下圖分別展現了均勻分佈的機率密度函數與機率分佈函數(導數與積分的關係):

1.3)均勻分佈的實際案例

2)指數分佈

2.1)指數分佈的機率密度與機率分佈函數公式

若是隨機變量 X 的密度函數爲:

則稱隨機變量X服從參數爲λ的指數分佈,記爲X~E(λ)。

相應的分佈函數爲:

密度函數和分佈函數的函數圖以下:

2.2)指數分佈的無記憶性

由於,因此有下式:

所以可證,指數型隨機變量知足無記憶性特徵:

即條件機率值只與持續時間t有關,與起始點s無關。

2.3)指數分佈和泊松分佈公式的互相推導

一言以蔽之:泊松分佈和指數分佈都是評估單位時間內n次伯努利實驗的統計機率性質的一種機率分佈,可是它們的度量角度不一樣。在一段時間內,事件出現的次數問題,就是泊松過程;在一段時間內,兩件事件發生之間要等待的時間問題,就是指數分佈

接下來咱們經過泊松機率公式,推導獲得指數分佈的機率密度函數。

設隨機變量 [公式] 表示在n重伯努利實驗中,兩次事件出現之間的時間間隔

[公式]

咱們先計算 [公式] 的機率,其對應的泊松分佈試驗結果是,在時間 [公式] 內,事件A並無出現。

換種說法是在 [公式] 時間段內,事件A出現0次。在一段時間內,事件出現的次數問題,就是泊松過程則有:

[公式],因此其反事件機率分佈函數爲:

[公式]

獲得了機率分佈函數,求其積分,獲得其密度函數

這就是參數爲λ的指數分佈。

2.4)指數分佈的函數性質

指數分佈中的λ表明整個區間中總共發生的事件數,若是λ越大,也就是說區間內發生的總事件數越多,那麼兩個事件發生之間的時間間隔必然越短。當λ較小的時候,例如λ=1,也就是說區間內總共只發生1次事件,那麼兩個事件發生間隔時間大於1的可能性就很大(下圖是指數分佈的機率密度函數的圖像,對應的機率是曲線下面積):

2.5)指數分佈和泊松分佈的數學指望對比

同一個n重伯努利實驗,他們的指望分別爲:

[公式]

[公式]

能夠看到,它們二者是倒數關係:區間內某事件發生的次數越多天然間隔時間越短,區間內某事件發生的次數越少天然間隔時間越長。

從某種程度上能夠說,泊松分佈和指數分佈是同一個事物的正反兩面。

2.6)指數分佈和幾何分佈的互相推導

指數分佈經常被用來描述電器產品或者生物的壽命等現象。

抽象來講,若是x服從指數分佈,那麼[x]就服從幾何分佈。[x]是x取整的意思。

簡單來講,每一秒鐘,電器壞的壽命都是相同的;每通過一秒,至關於扔了一次骰子,正面壞,反面不壞;直到扔出正面,這就是幾何分佈。

其實在機率分佈函數中,這種互相推導轉換的關係是很是廣泛的,祭出一張很是經典圖,有興趣的讀者朋友能夠用草稿紙演算一遍。

Relevant Link:

https://www.zhihu.com/question/54525571 
https://www.zhihu.com/question/24796044

3)正態分佈

正態分佈是機率統計中很是重要的一種分佈,是高斯(Gauss,1777-1855年)在研究偏差理論時首先用正態分佈來刻畫偏差的分佈,因此正態分佈又叫高斯分佈。

3.1)正態分佈數學定義

設X爲隨機變量,機率密度函數爲:   

那麼,稱這個隨機變量X服從參數爲μ,σ 的正態分佈(或高斯(Gaus)分佈),記做X ~ N(μ,σ),其中,-∞ < μ < ∞ ,σ > 0。

服從正態分佈的隨機變量統稱爲正態隨機變量

機率密度圖和機率分佈圖以下:

3.2)正態分佈的函數性質

正態分佈機率密度函數有以下性質:

  • f(x) 關於x = μ對稱,當x=μ時,f(x) 取到最大值
  • 固定σ,改變μ的值,則曲線沿x軸平移,但不改變其形狀,因此參數μ又稱爲位置參數
  • 固定μ,改變σ的值,則曲線的位置不變,但隨着σ的值越小,曲線越陡峭,因此參數σ又稱爲尺度參數

3.3)正態分佈的應用場景

正態分佈在理論上與實際應用中都是一個極其重要的分佈,高斯在研究偏差理論時曾用它來刻畫偏差的分佈。

經驗代表,當一個變量受到大量微小的、獨立的隨機 因素影響時,這個變量通常服從或近似服從正態分佈。

例如,某地區男性成年人的身高、自動機牀生產的產品尺寸、材料的斷裂強度、某地區的年降雨量,等等。

4)sigmoid機率函數

設隨機變量爲Z,則sigmoid是關於隨機變量Z的機率函數,它的機率分佈形式爲:

函數圖像以下:

能夠看到,sigmoid不只符合機率函數的基本性質,同時還有其餘的函數性質,這使得sigmoid適合在機器學習中用做激活函數,將線性層的輸出轉化爲機率值。

能夠看到在趨於正無窮或負無窮時,函數趨近平滑狀態,sigmoid函數由於輸出範圍(0,1),因此二分類的機率經常用這個函數,事實上logisti迴歸採用這個函數不少教程也說了如下幾個優勢

  • 值域在0和1之間
  • 函數具備很是好的對稱性
  • 函數對輸入超過必定範圍就會不敏感,對極端事件具有很好的魯棒性

關於sigmoid損失函數的討論,能夠參閱這篇文章

Relevant Link:

https://zlearning.netlify.com/computer/mlapp/mlappch2dot3-some-probability-distributions
https://www.cnblogs.com/LittleHann/p/10498579.html#_label2 

 

3. 經典機率分佈函數在工程分析中的做用

0x1:二項分佈在心理學和教育領域中關於機遇問題的判斷研究

所謂機遇問題,即指在實驗或調查中,實驗結果多是受試者猜想形成的。好比,選擇題中隨便選擇一個選項,對錯判斷中隨便判斷一個結果。

凡此類問題,教育工做者和研究人員的目標是:欲區分由猜想而形成的結果與真實的結果之間的界限區間,即在一張試卷中(多個獨立題目組成),答對多少題及以上能夠能夠大機率證實受試者不是在隨機蒙題

特別要注意的是,在機率論中沒有100%肯定的結論,一切都是機率區間,按照假設檢驗的理論觀點來從新闡述上面這句話,應該是:尋找猜想而形成的結果與真實結果之間的機率區間下界,即至少答對多少題才能達到至少95%的機率,與此同時,依然存在5%的置信區間(5%是經常使用的顯著性檢驗的機率閾值),在這個5%機率區間中,真實狀況與推測結論相反

下面咱們舉具體例子,應用二項分佈來解決機遇問題的判斷。

已知有正誤題10題,問答題者答對幾題才能認爲他是真會,或者說答對幾題,才能認爲不是出於猜想因素?
分析:對於蒙題的受試者來講,答對和打錯的機率相同:  
同時,  ,故此二項分佈接近正態分佈:
根據正態分佈機率,當Z=1.645時,該點如下包含了全體的95%。若是用原分數表示,則爲
它的意義是,徹底憑猜想,10題中猜對8題如下的可能性爲95%,猜對八、九、10題的機率只5%。
所以能夠推論說,答對8題以上者不是憑猜想,而是會答。
但應該明確:做此結論,也仍然有犯錯誤的可能,即那些徹底靠猜想的人也有5%的可能性答對八、九、10道題。

Relevant Link:

https://baike.baidu.com/item/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83

0x2:二項分佈在工廠零件供應質量抽檢評估中的做用

1. 問題場景說明

在不少工廠裏,一般都會跟零件供應商約定供貨合格率,並對每批供貨進行抽檢,就是所謂的IQC。

如今擺在面前的問題是這樣的,實際的貨物可能成千上萬,你不可能逐一檢測效果,並且像食品這種商品自己仍是不能檢測的,你難道要親自吃一口看壞沒壞?那咱們怎麼經過抽檢的方法來判斷這批貨物的合格率有多高呢?

一個簡單的想法是:隨機從這批貨物中抽取100個,逐一檢測是不是次品,假如出現了5個次品,則這批貨物的次品率就是95%。

如今問題來了,這麼作合理嗎?

顯然不合理,反對的理由很簡單,儘管抽樣是隨機的,可是單次的實驗並不能表明真實狀況,換言之,不具有機率統計性。

改進一下,咱們多作幾個實驗,每次仍是隨機抽100個,連作10次,將10次的總次品數加起來取平均。這樣作比以前的作法稍微更合理一些了,其內核也蘊含了一些機率思惟,可是依然不夠合理!由於能夠問10次實驗就夠了嗎?10次實驗一樣存在必定的抽樣不均勻的機率,那接下來怎麼辦呢?繼續擴大實驗,100次、1000次、100000次?那多大的實驗次數算合理呢?怎麼量化的去評估所謂的合理性呢?

2. 經過二項分佈數學模型正確評估和決策該問題 - 假設檢驗

如今咱們將問題歸入二項分佈的機率統計範疇內,使用假設檢驗的理論框架來解決這個問題。

整體思路是這樣的:咱們將次品抽檢會出現的結果抽象爲一個隨機事件,先假設一個隨機試驗機率(即供應商承諾的合格率),這就是假設檢驗中的假設過程,而後進行n次伯努利實驗,並根據實際的n次伯努利實驗結果。

如今假設供貨商承諾的合格率爲97%,咱們抽檢10個貨物進行次品檢驗,檢驗結果後發現了x個次品。

則有p=0.97,n=10,X~B(n,p) = X(10,0.97),知道了機率分佈的參數,實際上咱們也就獲得了機率密度函數P(X=x)。

接下來就是根據實際的試驗結果,查詢其對應在機率密度函數上的機率值,進行置信檢驗。

1)x = 1:發現1個次品

P(X=1) = 10 * 0.97^9 * 0.03 = 0.228

計算結果代表按照咱們的假設機率,在10次抽檢中出現1個次品的機率爲0.228,也就是說咱們有22.8%的置信度能夠相信這個假設機率,這就是假設檢驗中的檢驗過程

通常來講,22.%的機率不算低了,在實際的工業實踐中,工廠通常會選擇接受這樣的檢驗結果,即承認供貨商這批貨的合格率是97%。

2)x = 2:發現2個次品

咱們繼續討論實驗結果, 那抽出2個不合格的呢?一樣能夠算出

P(X=2) = 45 * 0.97^8 * 0.03^2 = 0.032

能夠看到,機率很是小,只有3.2%,繼續推廣,抽出超過2個以上不合格品的機率會更小。所以決策者應該拒絕該假設,即不承認供貨商提供了97%的合格率。

3. 根據假設檢驗獲得決策依據

所以若是10個樣品中有2個或以上的不合格品,則整批的零件合格率確定達不到97%,能夠整批退貨。

推而廣之,若是約定的合格率是99.5%,則出現0個、1個、2個不合格品的機率分別爲0.95一、0.047八、0.001,如此10個只要抽出1個不合格品就能夠整批退貨了。這裏省略計算過程。

4. 如何評估和選擇適合本身的業務場景的抽檢方案

接下來咱們繼續思考前面提的一個問題,到底應該抽多少樣本合適呢?每次抽100個?每次抽10000個?顯然抽的越多表明性越好,可是顯然咱們不可能無限地增長,抽樣是有經濟損失的,咱們須要找一個損失與收益能平衡最大化的標準。如何用機率的思惟量化地評估這個數字呢?咱們接下來討論這個問題。

假設你與供應商約定的接收合格率是99%,即AQL(接收質量限)=0.01,本批的總數量是1000只,如今咱們如今準備了3種抽檢方案:

  • 國際方案GB/T2828標準:抽樣量爲80,Ac=2,即抽到2個及如下不合格品可接收該批,抽到3個及以上不合格品則拒絕接收
  • 方案一:限於財力,稍微少抽樣一些,抽20個,不合格品爲0接收,大於0退回
  • 方案二:財力還能夠,多抽樣一些,抽50個,不合格品不超過1則接收,大於1則退回

接下來,咱們開始抽檢,接受者根據抽檢結果進行決策的結果只有兩個:

  • 實際批合格率低於約定合格率,仍被接收:接受者承擔的風險屬於使用者風險
  • 實際合格率高於約定,仍然存在拒收的風險,雖然這個風險並不大:生產者承擔的這一類的風險叫作生產者風險

若是這批來料合格率只有98%,按照以上抽檢方案,接收的機率分別爲:

  • 國際方案GB/T2828標準:0.784419
  • 方案一:0.6676
  • 方案二:0.7357

若是這批來料合格率高於約定合格率,如99.5%,拒收的機率分別爲:

  • 國際方案GB/T2828標準:0.007712
  • 方案一:0.09539
  • 方案二:0.026132

咋一看這三種方案性能差很少,在面對「實際合格率低於承諾」和「實際合格率高於承諾」這兩種狀況時,都有較大的機率能支持決策者做出正確的決策。

要解決這個問題,須要藉助函數分析的思惟方式,即不一樣的抽檢方法底層是不一樣的二項分佈機率密度函數,不一樣的機率密度函數具備不一樣的函數分佈於函數性質。咱們不單是評估各個抽檢方案在單個點上的表現,而是要看各個抽檢方案在整個可能樣本空間上的總體表現。

每一種方案的兩類風險,均可以畫出OC曲線。以下:

圖中橫座標爲實際的批不合格率,縱座標爲接收機率,曲線下方爲接收機率,上方爲拒收機率。

能夠看出即便來料不合格率遠高於約定,接收的機率仍是很大的。

黃色的矩形框稱爲理想曲線,理想的狀況下,批不合格率低於約定確定接收,而超過約定則確定拒收,但這種理想曲線是不可能達到的,只能儘量接近。

下面咱們再看看三種抽樣方案的OC曲線之間的對比。

能夠看到,國標方案的降低趨勢要比另外兩種要快,更接近理想曲線。

筆者認爲,機率論不是給人100%精確的答案的,相反,機率論中全部結果都是一個機率分佈,一切皆有可能。機率論的主要目的是給出一個事物結果的發生機率區間,以及置信度,給決策者一個清晰明確的決策依據,至於最終如何決策,還須要決策者本身結合自身具體狀況而定

Relevant Link:

https://zhuanlan.zhihu.com/p/24692791

 

4. 在各個學科領域裏機率分佈函數的應用於變化

機率分佈與數理統計不只是在純機器學習領域的一個理論研究成果,在各個具體的應用學科裏也被普遍的時候,其中也包括筆者所在的網絡安全領域。筆者這裏列舉一些典型的機率統計的應用場景。

0x1:統計語言模型

在統計語言模型中,經過統計每一個詞組的詞頻(words group frequency)獲得詞組的詞頻直方圖,這個直方圖本質上就是一個離散型隨機變量X,隨機變量X表明每一個詞組的詞頻權重。

統計語言模型經過詞組詞頻隨機變量來抽象歸納輸入文本的文本語言特徵。

關於統計語言模型的相關討論,能夠參閱另外一篇文章。 

0x2:基於數理統計方法的地質模型不肯定性評價 

王鵬飛,高振南,李俊飛,等.基於數理統計方法的地質模型不肯定性評價[J].地質科技情報

0x3:關於氣象災害籠罩面積與出現機率的一個定理

論文的主要討論重點能夠總結爲:

氣象災害(現象) x 的出現機率是能夠從當地的多年氣象資料的統計中獲得的, 它是時間域的問題。
氣象災害(現象) x 在同一時刻在面積 S 上佔有的面積問題是能夠經過天氣圖的分析而獲得的, 它是空間域的問題。
文章從機率分佈上證實了這兩個隨機變量的機率分佈是近似相等的,將時間域問題和空間域這兩種含義不一樣的統計聯繫到了一塊兒。
簡單來講,若是 24h 內有降水的事件的出現機率在全國各地的平均值等於 0.3 (各地平均 3d 有一場雨), 那麼雨區佔全國總面積的百分比的時間平均值也應當是 0.3, 即平均而言雨區佔總面積的 30%。
創建起這兩個隨機變量之間的近似等價關係以後,就能夠進行 t檢驗,即已知一個隨機事件的機率後,檢測另外一個對應等價隨機事件一樣也發生的置信度。
簡單來講,就是,N 年一遇的災害若是某年在全國發生的面積爲 1/N, 那麼這應當屬於正常年份。若是受災面積超過 1/N,則說明該年不正常。

0x4:一種基於機率分佈的投標報價方法 

論文的主要觀點能夠總結爲:

做者經過對企業的歷史項目招投標以及運營收益的數據收集,並進行統計分析。對項目成本、投標價格、項目利潤收益指望這幾個隨機變量進行建模。最後經過計算利潤收益指望的極值,獲得一個「投標價格和企業收益的機率分佈函數推導公式」,獲得一個相對準確的投標報價模型。

使得投資者能夠根據本身的報價預估可能的利潤收益,同時也能夠根據預期的利潤收益反推應該採起的報價策略和措施。

0x5:機率統計與數理分析在各個學科場景中的應用 

有一點筆者但願提出的是,在工程實踐的複雜場景中,不要總想着用咱們已知的一些經典機率統計模型去「套用」,例如說「我嘗試用正態分佈來對一個現象進行建模,也無論實際數據擬合程度如何,就強行硬套」。在不少時候,經典的機率分佈函數也不足以描述事物的全部規律與變化,這時候須要提出新的機率密度函數,或者基於經典機率分佈函數進行組合改造,使其更加符合實際的數據分佈表現。

Relevant Link:

http://xueshu.baidu.com/s?wd=%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E5%9C%A8%E5%90%84%E4%B8%AA%E5%AD%A6%E7%A7%91%E9%A2%86%E5%9F%9F%E7%9A%84%E5%BA%94%E7%94%A8&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_hit=1
http://xueshu.baidu.com/usercenter/paper/show?paperid=de08e07cdd644a2a4c90260a6056f011

 

5. 生成式模型和判別式模型的對立與統一

以機率分佈函數爲主的統計應用,主要是圍繞生成式模型進行研究和開發,他們更注重瞭解事物的規律自己,以此來更好的指導決策。

另外一方面,像深度神經網絡這類機器學習算法,主要是圍繞判別式模型進行研究和開發,他們更加註意數據和算法自己,主要的目標是得到一個泛化能力更好的模型,對模型的內部參數以及機率分佈並不十分關心。

 

6. 基於系統在不一樣時域中的機率分佈函數的狀態變化進行異常檢測

開題可行性調查:同一個系統,若是沒有外力做用或內部狀態發生鉅變的狀況下,特徵函數應該穩定收斂爲一個特定的機率分佈函數上,相反,若是有異常發生,則該系統的特徵函數會發生狀態躍遷,具體的表現就是機率分佈函數的參數發生變化。

具體的變換程度能夠經過」變化顯著性「進行量化度量。

相關話題討論能夠wechat或者emai和我交流。

相關文章
相關標籤/搜索