機率統計21——指數分佈和無記憶性

  指數分佈(Exponential distribution)是一種連續型機率分佈,能夠用來表示獨立隨機事件發生的時間間隔的機率,好比嬰兒出生的時間間隔、旅客進入機場的時間間隔、打進客服中心電話的時間間隔、系統出現bug的時間間隔等等。微信

指數分佈的由來

  指數分佈與泊松分佈存在着聯繫,它實際上能夠由泊松分佈推導而來。less

  

  泊松分佈(機率統計15)中已經介紹過泊松分佈,除了做爲二項分佈的近似外,當獨立事件發生的頻率固定時,泊松分佈還能夠刻畫算單位時間內事件發生次數的機率分佈。dom

  假設某個公司有一個帶傷上線的系統,每週平均的故障次數是2次,在下週不發生故障機率是多少?函數

  每週平均的故障次數是2次,咱們能夠把「一週」看做單位時間,程序的故障率是λ=2,單位時間內發生故障的次數X符合泊松分佈X~Po(λ)。在下週不發生故障的機率至關於發生了0個故障的機率:學習

  如今要求計算兩週以內不發生故障的機率。咱們用隨機變量T>2表示在2個單位時間內系統未發生故障的事件。在已知下週不發生故障的機率的狀況下,P(T>2)計算起來很容易:spa

  咱們換一種思路。以前是把「一週」看做單位時間,單位時間內事件發生的頻率是λ=2。如今是變成了雙倍的單位時間,故障發生的頻率天然就變成2λ=4,這樣一來,兩週以內不發生故障的機率是:3d

 

  結果和①相等。code

  時間是連續的,若是計算T=1.5周內不發生故障的機率,①就顯得無能爲力了。可是②卻沒有任何問題,只要把單位時間內事件的頻率λ隨着時間T進行放縮就能夠了:orm

  將問題推廣到任意時間間隔:blog

  反過來,故障在時間 t 以內發生的機率就是1-P(T>t):

  如今把T換成X:

  這裏的F(x;λ)就是指數分佈的分佈函數,λ表示平均每單位時間內事件發生的次數,隨機變量X表示時間間隔。

  F(x;λ)對應的密度函數是:

  隨機變量X符合參數爲λ>0的指數分佈,記做X~E(λ)。

  有些資料的寫法是:

  僅僅是用θ代替了1/λ。

無記憶性

  指數分佈的一個重要特徵是無記憶性(Memoryless Property,又稱遺失記憶性)。若是一個隨機變量呈指數分佈X~E(λ),當s, t ≥0時:

  先來看看這個等式爲何成立。

  所以兩者相等。

  

  在前面的推導中能夠看到:

  累積機率對應面積,這個結論告訴咱們,在指數分佈下,P{X>s+t}和P{X>s}對應的面積的比值等於P{X>t}對應的面積和整體面積的比值:

理解無記憶性

  咱們已經知道指數分佈能夠用來表示獨立隨機事件發生的時間間隔的機率分佈,在精密元件的可靠性研究中,指數分佈一般用於描述對元件發生缺陷數測量結果。可是無記憶性又指出,元件在通過s時間的工做以後,它的壽命分佈與原來還未工做時的壽命分佈相同。這就比如有一個已經用了10年的燈泡和一個剛買的燈泡,如今我告訴你它倆在將來一年裏報廢的機率相同,你信嗎?

  一個著名的問題是「賭徒心理」。假設在賭桌上只能押大或小,某個賭徒已經連續押了10次小,但都輸了,因而賭徒認爲,下次再出現小的可能性很是低,因而他想把兜裏的錢所有押大,試圖翻本。

  不妨幫助賭徒分析一下翻本的機率。

  假設這是一個公平的賭場,大和小的機率都是0.5,用隨機變量X表示第一次出現「大」時所參與的賭局數,X符合幾何分佈:

  其中p表示出現「大」的機率,q表示出現「小」的機率。直到第11次纔出現「大」的機率是0.511,這是個很是小的數值,可見這個賭徒確實運氣不佳。

  接着分析,用X>10表示連續10次以上沒出現「大」的事件,以此爲前提,下一次(第11次)出現大的機率是:

  在連續押小輸掉10次的條件下,下一次出現「大」,和第1次就出現「大」的機率相同。對於賭徒來講,每一局都是全新的,下一次贏錢的機率和以前的輸贏沒有任何關係,這就是所謂的無記憶性。

  指數分佈與幾何分佈相似,只不過把離散隨型機變量變成了連續型。

  

  實際上生活中有不少無記憶性的例子,好比車牌搖號。對於參與搖號的人來講,在每一次搖號中搖中的機率都是相等的。有人說不對啊,明明告訴我搖中的機率是1%,100次裏面怎麼還不能中一回嗎?所謂的1%搖中率,是在大數定律下才起做用,而現實生活中咱們面對的每每是「小數」。能夠用程序模擬一下:

1 import numpy as np
2
3 np.random.seed(41)
4 for i in range(1, 11, 1):
5     m = 100 * i # 試驗次數
6     nums = np.random.randint(1, 101, 200) # 從1~100中隨機選擇m個數字
7     p_50_size = nums[nums == 50].size # m個數字中出現50的次數
8     print('一共參與搖號{}次,搖中{}次,機率{}'.format(m, p_50_size, p_50_size/m))

  結果顯示:

  一共參與100次搖號,搖中0次,機率0.0

  一共參與200次搖號,搖中0次,機率0.0

  一共參與300次搖號,搖中3次,機率0.01

  一共參與400次搖號,搖中3次,機率0.0075

  一共參與500次搖號,搖中2次,機率0.004

  一共參與600次搖號,搖中3次,機率0.005

  一共參與700次搖號,搖中4次,機率0.005714285714285714

  一共參與800次搖號,搖中3次,機率0.00375

  一共參與900次搖號,搖中3次,機率0.0033333333333333335

  一共參與1000次搖號,搖中5次,機率0.005

  每個月搖號一次,一我的窮盡一輩子也知足不了「大數」,搖號還真是件沒譜的事。

  由於無記憶性的關係,有人戲稱服從指數分佈的隨機變量就像傳說中金魚只有7秒鐘記憶同樣,是「永遠年輕的」。也正是這一點限制了指數分佈的應用,由於指數分佈忽略了損耗。可是,指數分佈仍然能夠近似地做爲高可靠性的複雜部件、機器或系統的失效分佈模型,特別是在部件或機器的整機試驗中獲得普遍的應用。

  至於燈泡的壽命是否符合指數分佈,其實我也不知道。也許如今製做工藝提高了,燈泡已是具備高可靠性的產品,燈泡明天是否還能正常工做,徹底取決因而否遭到了外力的破壞,平常損耗所起到的做用能夠忽略不計,這種狀況下,燈泡的使用壽命纔有可能符合指數分佈。

關於保修期的問題

  冰箱平均10年出現一次大的故障,求:

  (1)冰箱使用15年後尚未出現大故障的比例。

  (2)若是廠家想提供大故障免費維修的質保,試肯定保修1~5年內,須要維修的冰箱的佔比。

 

  冰箱平均10年出現大的故障,可見故障率不高,能夠認爲故障次數服從泊松分佈,單位時間是1年,λ=0.1。

  (1)根據指數分佈:

  冰箱使用15年後尚未出現大故障的比例約等於22.3%。

  (2)

1 from scipy import stats
2
3 lam = 0.1
4 for i in range(1, 6):
5     print(stats.expon.cdf(i, scale=1/lam))

  上表告訴了咱們冰箱的保修期通常都是2年之內的緣由,廠家爲了把上門修理的次數控制在20%之內,通常選擇保修2年。

指望和方差

  對於X~E(λ)的指數分佈來講,它的指望是1/λ,方差是1/λ2

  先來看指望:

  根據分部積分:

  再來看方差:

  繼續利用分部積分:

  將u=λx代入④:

  

  將在E[X]中求得的③代入⑤中:

  最終:

 


  出處:微信公衆號 "我是8位的"

  本文以學習、研究和分享爲主,如需轉載,請聯繫本人,標明做者和出處,非商業用途! 

  掃描二維碼關注做者公衆號「我是8位的」

相關文章
相關標籤/搜索