隨機變量在機率空間中遵循不一樣類型的分佈,這決定了它們的特徵並有助於預測。微信
本文內容列表:app
引言編輯器
高斯/正態分佈(Gaussian/Normal Distribution)ide
二項分佈(Binomial Distribution)函數
伯努利分佈(Bernoulli Distribution)大數據
對數正態分佈(Log Normal Distribution)flex
冪律分佈(Power Law Distribution)ui
分佈函數的使用人工智能
引言
每當咱們遇到任何機率實驗,咱們談論的是隨機變量,它只不過是獲取實驗預期結果的變量。例如,當咱們擲骰子時,咱們指望從集合{1,2,3,4,5,6}中獲得一個值。因此咱們定義了一個隨機變量X,它在每次擲骰時取這些值。spa
根據實驗的不一樣,隨機變量能夠取離散值,也能夠取連續值。骰子的例子是離散隨機變量,由於它取一個離散值。可是假設咱們討論的是某個城鎮的房價,那麼相關的隨機變量能夠取連續的值(例如550000美圓,1200523.54美圓等等)。
當咱們將隨機變量的指望值與實驗中出現頻率的關係圖繪製出來時,咱們獲得了一個直方圖形式的頻率分佈圖。利用核密度估計對這些直方圖進行平滑處理,獲得了一條很好的曲線。這條曲線被稱爲「分佈函數」。
橙色平滑曲線是機率分佈曲線
高斯/正態分佈
高斯/正態分佈是一個連續的機率分佈函數,隨機變量在均值(μ)和方差(σ²)周圍對稱分佈。
高斯分佈函數
平均值(μ):決定峯值在X軸上的位置。並且,全部數據都對稱地位於X=μ線的兩側。如圖所示,藍色、紅色和黃色曲線分佈在X=0的兩側,而綠色曲線的中心位於X=-2。因此經過觀察這些曲線,咱們能夠很容易地說,藍色,紅色和黃色的平均值是0,而綠色的平均值是-2。
方差(σ²):決定曲線的寬度和高度。方差只不過是標準差的平方。請注意,圖中給出了全部四條曲線的σ²值。如今不看數值,咱們能夠很直觀地發現,黃色曲線的高度最低。
若是咱們設置μ=0和σ=1,則稱爲標準正態分佈或標準正態變量,通常表達式變爲:
標準正態分佈函數
如今咱們能夠思考,分母意味着什麼?這是爲了確保正態分佈曲線下的面積老是等於1。
咱們從正態分佈中能夠獲得不少有用的數據分割信息。如下圖爲例:
正態分佈的值分割圖
如圖所示,若是咱們從平均值右移一個標準差,這個分佈存儲了總質量的34.1%;若是咱們從平均值右移2個標準誤差,則爲49.8%。由於這條曲線是對稱的,因此兩邊都適用。
因此,如今咱們知道了,若是任何數據服從正態分佈,例如城鎮人口的權重,咱們能夠很容易地估計出不少值,而不須要進行實際的普遍分析。這就是正態分佈的力量。
二項分佈(Binomial Distribution)
正如咱們在名字裏看到的,有一個「Bi」。這個‘Bi’表明一個實驗的2個結果,要麼是確定的,要麼是失敗的,要麼是1或者0等等。最簡單的說,這個分佈是屢次重複實驗的分佈以及它們的機率,其中預期結果要麼是「成功」要麼是「失敗」。
二項分佈
從圖像上能夠看出,它是一個離散的機率分佈函數。主要參數爲n(試驗次數)和p(成功機率)。
如今假設咱們有一個事件成功的機率p,那麼失敗的機率是(1-p),假設你重複實驗n次(試驗次數=n)。那麼在n個獨立的伯努利試驗中得到k個成功的機率是:
二項分佈函數
其中k屬於範圍[0,n],而且:
如今咱們思考一個簡單的問題。假設印度和澳大利亞之間正在進行板球比賽。Rohit Sharma已經獲得了151分,根據你的經驗,你知道150分以後,Rohit有0.3分的機率達到6分。這是最後一節了,你父親問你Rohit有多大的機會能打4個全壘打。那你怎麼判斷呢?
這是一個典型的二項試驗的例子。因此,解決辦法是:
注:大括號中的6和4是6C4,它是6個球中4個全壘打的可能組合。
伯努利分佈
在二項分佈中,咱們有一個特殊的例子叫作伯努利分佈,其中n=1,這意味着在這個二項實驗中只進行了一次試驗。當咱們把n=1放入二項PMF(機率質量函數)中時,nCk等於1,函數變成:
伯努利分佈PMF
式中,k={0,1}。
如今咱們來看看印度隊對澳大利亞隊的比賽。假設當Rohit達到100分(a ton),那麼印度獲勝的概率是0.7。因此你能夠簡單地告訴你父親印度有70%的機會贏了。
對數正態分佈
咱們已經瞭解了正態分佈的性質,乍一看,許多人會說,對數正態曲線在某種程度上也讓咱們看到了正態分佈是右偏態的。
假設有一個隨機變量X服從對數正態分佈,均值=μ,方差=σ²。X有總共n個可能值(x1,x2,x3…..xn)。如今取全部X值的天然對數,並建立一個新的隨機變量Y=[Log(x1),Log(x2),Log(x3)…Log(xn)]。這個隨機變量Y是正態分佈的。
換句話說,若是存在正態分佈Y,而且咱們取它的指數函數X=exp(Y),那麼X將遵循對數正態分佈。
它還具備與高斯函數相同的參數:均值(μ)和方差(σ²)。
冪律/帕累託分佈
冪律是兩個量之間的關係,其中一個量的變化將成比例地改變另外一個量。它遵循一個80-20法則:在前20%的值中,咱們能夠找到大約80%的質量密度。如圖所示,稍暗的左側部分爲質量的80%,右側亮黃色部分爲20%。
當機率分佈遵循冪律時,咱們稱之爲帕累託分佈。帕累託分佈由兩個參數控制:x_m和α。xμm能夠看做是控制曲線尺度的均值,α能夠看做是控制曲線形狀的σ。(注:x_m不是平均值,α不是σ。)如今咱們能夠在圖像中看到,全部四條曲線的峯值都位於x=1。因此,咱們能夠說對於圖中的全部曲線,x_m=1。隨着α的增長,峯值也會上升,在α趨於無窮大的極端狀況下,曲線僅轉變爲一條垂直線。這叫作Diracδ函數。隨着α的減少,曲線變得更加平緩。
帕累託分佈PMF
分佈函數的使用
若是咱們知道一個特定的數據遵循必定的分佈特徵,那麼咱們能夠採起部分樣本,找到所涉及的參數,而後能夠繪製出機率分佈函數來解決許多問題。例如:在一個有10萬人口的城鎮,咱們必須作身高分析,但咱們不能對這麼多人口進行調查。所以,咱們選取一個隨機樣本,求出樣本均值和樣本標準差。如今假設一位醫生或專家告訴咱們身高服從正態分佈。這樣咱們就能夠輕鬆地回答許多問題了。
做者: Saurabh Raj
deephub翻譯組:Oliver Lee
微信號 : deephub-imba
每日大數據和人工智能的重磅乾貨
大廠職位內推信息
長按識別二維碼關注 ->
![](http://static.javashuo.com/static/loading.gif)
喜歡就請三連暴擊!
本文分享自微信公衆號 - DeepHub IMBA(deephub-imba)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。