最大似然估計html
似然與機率算法
在統計學中,似然函數(likelihood function,一般簡寫爲likelihood,似然)和機率(Probability)是兩個不一樣的概念。機率是在特定環境下某件事情發生的可能性,也就是結果沒有產生以前依據環境所對應的參數來預測某件事情發生的可能性,好比拋硬幣,拋以前咱們不知道最後是哪一面朝上,可是根據硬幣的性質咱們能夠推測任何一面朝上的可能性均爲50%,這個機率只有在拋硬幣以前纔是有意義的,拋完硬幣後的結果即是肯定的;而似然恰好相反,是在肯定的結果下去推測產生這個結果的可能環境(參數),仍是拋硬幣的例子,假設咱們隨機拋擲一枚硬幣1,000次,結果500次人頭朝上,500次數字朝上(實際狀況通常不會這麼理想,這裏只是舉個例子),咱們很容易判斷這是一枚標準的硬幣,兩面朝上的機率均爲50%,這個過程就是咱們根據結果來判斷這個事情自己的性質(參數),也就是似然。ide
結果和參數相互對應的時候,似然和機率在數值上是相等的,若是用 θ 表示環境對應的參數,x 表示結果,那麼機率能夠表示爲:函數
P(x | θ) spa
是條件機率的表示方法,θ是前置條件,理解爲在θ 的前提下,事件 x 發生的機率,相對應的似然能夠表示爲:.net
L(θ | x) 3d
理解爲已知結果爲 x ,參數爲θ (似然函數裏θ 是變量,這裏說的參數是相對與機率而言的)對應的機率。orm
最大似然估計htm
似然函數的最大值意味着什麼?讓咱們回到機率和似然的定義,機率描述的是在必定條件下某個事件發生的可能性,機率越大說明這件事情越可能會發生;而似然描述的是結果已知的狀況下,該事件在不一樣條件下發生的可能性,似然函數的值越大說明該事件在對應的條件下發生的可能性越大。blog
最大值似然估計量和極大值似然估計量的區別
最大似然估計量是樣本的函數,若把樣本的觀測值 x1,..., xn 帶入到統計量的表達式中,得出的就是最大似然估計值。 前者是個隨機變量,後者是一個肯定的值,沒有隨機性。
n階中心矩
設X是隨機變量,則稱
爲X的k階中心距。
當中心距中的E(X)爲0時,此時爲k階原點矩,即原點矩是中心距的特殊狀況。
一階原點矩就是數學指望,二階中心距就是方差,在實際中經常使用低階矩,高於四階矩極少使用。
協方差(矩陣)
協方差用於描述兩個變量的相關性
Cov(X, Y) = E[ [X−E(X)][Y−E(Y)] ]
相關係數其中,D(X)爲方差,E(X)爲指望。
ρXY=0, 兩個變量不相關
協方差矩陣
先從二維隨機變量講起,二維隨機變量(X1,X2)有四個二階中心矩(設它們都存在),分別記爲:
c11 = E{ [X1 - E(X1)]2 }
c12 = E{ [X1 - E(X1)][X2 - E(X2)] }
c21 = E{ [X2 - E(X2)][X1 - E(X1)] }
c22 = E{ [X2 - E(X2)]2 }
將它們排列成矩陣的形式
擴展到多維:
設n維隨機變量(X1, X2, ..., Xn)的二階混合中心矩 cij = E{ [Xi - E(Xi)][Xj - E(Xj)] },i,j=1,2,...,n 都存在,則稱矩陣
爲n維隨機變量(X1, X2, ..., Xn)的協方差矩陣。因爲cij = cji(i≠j;ii,j=1,2,...,n),於是上述矩陣是一個對稱矩陣。
(多元)高斯分佈
正態分佈(normal distribution)又名高斯分佈(Gaussian distribution),是一個很是常見的連續機率分佈。正態分佈在統計學上十分重要,常常用在天然和社會科學來表明一個不明的隨機變量。
則其機率密度函數的通常形式爲
正態分佈的數學指望值或指望值等於位置參數,決定了分佈的位置;其方差
的開平方或標準差
等於尺度參數,決定了分佈的幅度。
正態分佈的機率密度函數曲線呈鐘形,所以人們又常常稱之爲鐘形曲線(相似於寺廟裏的大鐘,所以得名)。咱們一般所說的標準正態分佈N(0, 1)是位置參數,尺度參數
的正態分佈。
標準正態分佈標準化到通常情形,x 軸方向作 σ 倍延拓的同時, y 軸應該壓縮 σ 倍(乘以 1/σ)。
機率密度函數
高斯分佈一些重要的量:
1. 密度函數關於平均值對稱;
2. 平均值與它的衆數(statistical mode)以及中位數(median)相等;
3. 函數曲線下68.268949%的面積在平均值左右的一個標準差範圍內;
4. 95.449974%的面積在平均值左右兩個標準差2σ的範圍內;
5. 99.730020%的面積在平均值左右三個標準差3σ的範圍。
其中第3-5條稱爲「68-95-99.7法則」 或 「經驗法則」。
機率分佈函數
正態分佈的分佈函數沒有解析表達式,它的值能夠經過數值積分、泰勒級數或者漸進序列近似獲得。
中心極限定理
正態分佈有一個很重要的性質:在特定條件下,大量統計獨立的隨機變量的和的分佈趨於正態分佈,這就是中心極限定理。中心極限定理的重要意義在於,依據這必定理的結論,其它機率分佈可以用正態分佈做爲近似。
高斯分佈線性組合的重要性質
爲何數據科學家都喜歡高斯分佈
天然科學和社會科學中有極其大量的過程自然遵循高斯分佈。即便當它們並不遵循高斯分佈的時候,高斯分佈也每每提供最佳的逼近。數學上的緣由即是中心極限定理。中心極限定理代表,知足必定條件時,大量相互獨立的隨機變量經適當標準化後,收斂於高斯分佈。這必定理意味着專門爲高斯模型開發的大量科學方法和統計學方法一樣適用於可能牽涉其餘類型分佈的廣闊領域內的問題。
另外,高斯分佈在一些轉換後仍然是高斯分佈:
高斯函數經傅里葉變換後,所得仍爲高斯函數。
兩個高斯函數的積仍然是高斯函數。
兩個高斯函數的卷積仍然是高斯函數。
兩個符合高斯分佈的獨立隨機變量之和仍然符合高斯分佈。
對每一個高斯模型逼近而言,可能存在一個提供更好的逼近的複雜多參數分佈。然而,咱們仍然選擇高斯模型,由於它大大簡化了數學!
如何檢查你的數據是否是高斯分佈
· 看直方圖! 是否是看起來像鐘形?
· 計算描述性彙總度量 - 平均值,中位數和模式是否類似?(此處不大明白)
· 2/3的觀察是否位於平均值的±1*標準差內? 95%的觀察值是否在平均值的±2*標準差範圍內?
特徵選擇
由於咱們創建模型的基礎是假設特診知足高斯分佈,那麼要是特徵不符合高斯分佈呢?答案固然是整成高斯分佈啊!
咱們一開始拿到的特徵的分佈多是這樣的:
咱們能夠經過對數操做或者其餘操做將他轉化爲高斯分佈,例如,上面的特徵經對數操做後造成的分佈就很是接近於高斯分佈:
多元高斯分佈
獨立多元正態分佈
先假設n個變量互不相關,且服從正態分佈(維度不相關多元正態分佈),各個維度的均值
, 方差
根據聯合機率密度公式:
這樣多元正態分佈又能夠寫成一元那種漂亮的形式了(注意一元與多元的差異):
引入協方差矩陣表示σz代入標準化公式
詳細解釋說明見:The Multivariate normal distribution,下同(相關多元高斯分佈)
相關多元高斯分佈
咱們討論多元正態分佈的前提是多元變量之間是相互獨立的,實際上,有不少應用場合,變量與變量之間是有關聯的。以二元正態分佈爲例:
向輸入平面做投影后的平面圖:
以如今的座標系來看,X1,X2是相關的,可是若是咱們換一個角度,它們就是互不相關的了:
上述過程被稱爲去相關性,更專業一點叫作歸化。通過一系列規歸化,咱們把新的指望、協方差、協方差的逆帶入標準化公式:
總結一下咱們作了什麼:
Ⅰ, 咱們先定義了新的座標系,經過矩陣 UT 將元素映射到新的座標系,目的是去相關性
Ⅱ, 在新的座標下,咱們定義了新的指望、協方差、協方差的逆,他們均可以經過 U 與 UT計算出來,固然咱們不用計算
Ⅲ, 套用標準公式,將新的指望、協方差的逆、協方差的行列式代入,發現最後的結果與U、UT無關
示例0 異常檢測算法採用獨立多元高斯分佈沒法解決的問題由相關多元高斯分佈進行解決,介紹熱力圖對投影后的圖像進行不一樣方向的拉伸。
獨立多元高斯分佈模型只是相關多元高斯分佈模型的一個約束,它將相關多元高斯分佈的等高線約束到了同軸分佈(機率密度的等高線是沿着軸向的)!
http://www.javashuo.com/article/p-vgexjomg-gv.html
https://zhidao.baidu.com/question/717195483776826085.html
https://blog.csdn.net/lql0716/article/details/68267829
http://www.javashuo.com/article/p-vkolwtrp-mz.html
http://www.javashuo.com/article/p-adylfkel-nk.html
http://www.javashuo.com/article/p-stznnoeh-em.html
https://baijiahao.baidu.com/s?id=1621087027738177317&wfr=spider&for=pc
http://www.360doc.com/content/18/0608/06/31429017_760580081.shtml