人工智能必備數學基礎：機率論與數理統計（2）

時間 2021-02-16

標籤 git github 算法機器學習 ide 函數 post 學習大數據優化欄目應用數學简体版

原文原文鏈接

若是須要小編其餘數學基礎博客，請移步小編的GitHub地址

　　傳送門：請點擊我git

　　若是點擊有誤：https://github.com/LeBron-Jian/DeepLearningNotegithub

　　這裏我打算再補充一下關於常見幾率分佈，似然函數，後驗機率估計和一些距離公式的基礎。算法

　　（注意：目前本身補充到的全部知識點，均按照本身網課視頻中老師課程知識點走的，同時一些公式是網友辛辛苦苦敲的，這裏用到那個博客均在文末補充地址，不過這裏首先表示感謝！！）機器學習

1，常見離散機率分佈

　　介紹一個概念：PMF（機率質量函數）：是對離散隨機變量的定義，是離散隨機變量在各個特定取值的機率，該函數通俗來講，就是對於一個離散型機率事件來講，使用這個函數來求它的各個成功事件結果的機率。ide

1.1 0-1分佈

　　0-1 分佈是單個二值型（n=1狀況下）離散隨機變量的分佈。即只先進行一次事件實驗，該事件發生的機率爲 p，不發生的機率爲 1-p，這是一個最簡單的分佈，任何只有兩種結果的隨機現象都服從0-1分佈，其機率分佈函數爲：函數

　　性質：數學指望爲 E(X) = p，方差爲 D(X)=p(1-p)。post

　　舉個例子，好比拋硬幣觀察正反面，新生兒是男仍是女，檢測產品是否合格等，均可以用0-1分佈描述。學習

1.2 伯努利分佈

　　伯努利分佈指的是對於隨機變量 X 有參數爲 p（0<p<1），若是它以機率 p 和 1-p 取 1和 0 的值。EX=p，DX=p(1-p)。伯努利試驗成功的次數服從伯努利分佈，參數p是試驗成功的機率。伯努利分佈是一個離散型機率分佈，是 N=1時的二項分佈的特殊狀況，爲記念瑞士科學家詹姆斯*伯努利而命名。大數據

　　若是隨機變量 X 只取0和1兩個值，而且相應的機率爲：優化

　　則稱隨機變量X服從參數爲 p 的伯努利分佈，若令 q = 1-p，則X的機率函數可寫爲：

1.3 二項分佈（Binomial Distribution）

　　讓咱們看看玩板球這個例子，假設你今天贏了一場比賽，這表示一個成功的事件。你再比了一場，可是你輸了。若是你今天贏了一場比賽，但這並不表示你明天確定會贏。咱們來分配一個隨機變量X，用於表示贏得的次數。X可能的值是多少呢？他能夠是任意值，這取決於你擲硬幣的次數。只有兩種可能的結果，成功和失敗。所以，成功的機率爲0.5，失敗的機率也很容易計算出來，即 q = 1- p = 0.5。

　　二項分佈即重複 n 次伯努利試驗，各類試驗之間都相互獨立，而且每次試驗中只有兩種可能的結果，並且這兩種結果發生與否相互對立，好比成功與失敗，獲得與失去等。若是每次試驗時，事件發生的機率爲 p，不發生的機率爲 1-p，則 n次重複獨立試驗中發生 k 次的機率爲：

　　性質：每一次嘗試都是獨立的，由於前一次投擲的結果不能影響或決定當前投擲的結果。只有兩個可能的結果而且重複n次的試驗叫二項式，二項式分佈的參數爲n和p，其中n是試驗總數，p是每次試驗成功的機率，通常的二項分佈是 n 次獨立的伯努利試驗的和，它的指望值和方差分別等於每次單獨試驗的指望值和方差的和：

　　這個事實很容易證實。首先假設有一個伯努利試驗。實驗中有兩個可能的結果：1和0，前者發生的機率爲p，後者發生的機率爲 1-p。該試驗的指望值等於 1*p + 0*(1-p) = p。該試驗的方差也能夠相似的計算：σ²= (1−p)²·p+ (0−p)²·(1−p) =p(1 − p)

　　總結一下，二項式分佈的屬性包括：

1，每一個實驗都是獨立的
2，在實驗中只有兩個可能的結果：成功或失敗
3，總共進行了 n 次相同的實驗
4，全部實驗成功和失敗的機率是相同的

1.4 泊松分佈

　　Poisson分佈，是一種統計與機率學裏面常見到的離散機率分佈，由法國數學家西摩恩*德尼*泊松在 2838年時發表，現實生活中多數服從泊松分佈。

　　平常生活中，大量事件是由固定頻率的，好比：

某醫院平均每小時出生 3 個嬰兒
某網站平均每分鐘有 2次訪問
某超市平均每小時銷售 4 包奶粉

　　他們的特色就是，咱們能夠預估這些事情的總數，可是無法知道具體的發生時間。已知平均每小時出生 3 個嬰兒，請問下一個小時，會出生幾個？有可能一下出生 6 個，也有可能一個都不出生，這是咱們無法知道的。

　　當如下假設有效時，則稱爲泊松分佈：

1，任何一個成功的事件都不該該影響另外一個成功的事件
2，在短期內成功的機率必須等於在更長的時間內成功的機率
3，時間間隔很小時，在給間隔時間內成功的機率趨於零

　　泊松分佈就是描述某段時間內，事件具體的發生機率。其機率函數爲：

　　其中：P表示機率，N表示某種函數關係，t 表示時間（即時間間隔的長），n 表示數量（即該時間間隔內的事件數），λ 表示事件的頻率，令 μ 表示長度爲 t 的間隔中的平均事件數，那麼 μ = λ*t。

　　例如說一個醫院內，每一個出生嬰兒的都是隨機並獨立的機率，則該醫院一天（或者其餘特定時間段，一小時，一週等等）要出生的嬰兒總數能夠看做是一個服從 poisson 分佈的隨機變量。可是爲何能夠這樣處理你？通俗定義：假設一個事件在一段時間內隨機發生，且符合如下條件：

1，將該時間段無限分割成果若干個小的時間段，在這個接近於零的小時間段內，該事件發生一次的機率與這個極小時間段的長度成正比
2，在每一個極小時間段內，該事件發生兩次及以上的機率恆等於零
3，該事件在不一樣的小時間段裏，發生與否相互獨立

　　繼續用上面的例子，1小時內出生3個嬰兒的機率，就表示爲 P(N(1) = 3)，那麼接下來兩個小時，請問會出生幾個孩子？

　　有可能一下生出6個孩子，也有可能一個都不出生，這是咱們無法知道的。而泊松分佈就是描述某段時間內，事件具體發生的機率。

　　一個嬰兒都不出生的機率能夠求得爲0.0025，說明機率很是小，基本不可能發生，計算以下：

　　同理，咱們能夠求接下來一個小時，至少出生兩個嬰兒的機率0.8，說明機率很是大，計算以下：

　　完整計算以下：

　　泊松分佈的圖形大概是下面的樣子：

1.5 泊松分佈與二項分佈的關係

　　當二項分佈的 n 很大而 p 很小時，泊松分佈可做爲二項分佈的近似，其中 λ 爲 np。一般當 n >=20，p <=0.05時，就能夠用泊松公式近似的計算。

　　事實上，泊松分佈正是由二項分佈推導而來的。

2，常見連續機率分佈

　　與PMF相對應的，在連續隨機變量中叫 PDF（機率密度函數）：是對連續性隨機變量的定義，與PMF 不一樣的是 PDF 在特定點上的值並非該點的機率，連續隨機機率事件只能求一段區域內發生事件的機率，經過對這段區間進行積分來求，通俗來講，使用這個機率密度函數將想要求的機率的區間的臨界點（最大值和最小值）帶入求積分，就是該區間的機率。

2.1 均勻分佈

　　在機率論和統計學中，均勻分佈也叫矩形分佈，它是對稱機率分佈，在相同長度間隔的分佈機率是等可能的。均勻分佈由兩個參數a和b定義，他們是數軸上的最小值和最大值，一般縮寫爲 U(a, b)

　　對於擲骰子來講，結果是1~6，獲得任何一個結果的機率是相同的，這就是均勻分佈的基礎。與伯努利分佈不一樣，均勻分佈的全部可能結果的 n 個數也是相等的。若是變量 X 是均勻分佈的，則密度函數能夠表示爲：

　　均勻分佈的曲線是這樣的：

　　你能夠看到，均勻分佈曲線的形狀是一個矩形，這也是均勻分佈又稱爲矩形分佈的緣由，其中a和b是參數。

　　均值和方差以下：

　　舉個例子，花店天天銷售的花束數量是均勻分佈的，最多爲 40 ，最小爲 10，咱們來計算一下銷售量在 15~30之間的機率。

　　日銷售量在 15~30之間的機率爲（30-15）/（40-10）） = 0.5，一樣的，日銷售量大於 20 的機率爲 0.667。

2.2 指數分佈

　　在機率理論和統計學中，指數分佈（也稱爲負指數分佈）是描述泊松過程當中的事件之間的時間的機率分佈，即事件以恆定平均速率連續且獨立地發生的過程。這是伽馬分佈的一個特殊狀況。他是幾何分佈的連續模擬，它具備無記憶的關鍵性質。除了用於分析泊松過程外，還能夠在其餘各類環境中找到。

　　指數分佈是指事件的時間間隔的機率，它的一個重要特徵是無記憶性。例如：若是某一元件的壽命爲T，已知元件使用了 t 小時，它總共使用至少 t+s 小時的條件機率，與從開始使用時他使用至少 s 小時的機率相等。下面這些都屬於指數分佈：

嬰兒出生的時間間隔
網站訪問的時間間隔
奶粉銷售的時間間隔

　　指數分佈的公式能夠從泊松分佈推斷出來。若是下一個嬰兒要間隔時間 t，就等同於 t 以內沒有任何嬰兒出生，即：

　　則：

　　如：接下來 15 分鐘，會有嬰兒出生的機率爲：

　　指數分佈的圖像以下：

　　指數分佈的均值和方差：

2.3 高斯分佈（總體分佈）

　　高斯分佈又叫正態分佈，其曲線呈鐘形，兩頭低，中間高，左右對稱因其曲線呈鐘形，以下圖所示：

　　若隨機變量 X 服從一個數學指望爲 μ ，方差爲 σ² 的機率分佈，且其機率密度函數爲：

　　則這個隨機變量就稱爲正態隨機變量，正態隨機變量服從的分佈稱爲正態分佈，咱們將其記爲：X~N(μ， σ²)。其指望值 μ 決定了正態分佈的位置，其標準差 σ （方差的開方）決定了正態分佈的幅度。

　　標準正態分佈爲當 μ = 0， σ = 1時，正態分佈就成了標註正態分佈：

　　正態分佈爲何常見？

　　真正緣由是中心極限定理（Central limit theorem）。根據中心極限定理，若是一個事物受到多種因素的英雄，無論每一個勻速自己是什麼分佈，他們加總後，結果的平均值就是正態分佈。正態分佈只適合各類因素累加的狀況，若是這些因素不是彼此獨立的，會互相增強英雄，那麼就不是正態分佈了。

2.4 卡方分佈（Chi-Squared Distribution)

　　卡方分佈通俗的說，就是經過小數量的樣本容量去預估整體容量的分佈狀況。卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度。

　　若 n 個相互獨立的隨機變量 ζ1， ζ2， ζ3.... ζn，均服從標準正態分佈（也稱獨立同分佈於標準正態分佈），則這 n 個服從標準正態分佈的隨機變量的平方和構成一新的隨機變量，其分佈規律成爲卡方分佈（chi-square distribution)。

　　自由度：假設你如今手頭有3個樣本。由於樣本具備隨機性，因此他們取值不定。可是假設處於某種緣由，咱們須要讓樣本均值固定，好比說有一個樣本是固定的，那麼這時真正取值自由，」有隨機性「的樣本只有兩個，試想，若是每取一組的值，將影響下一組的值，那麼對於後面樣原本說，就被剝奪了自由度。因此就這個例子而言，三個樣本最終」自由「的樣本只有一個。

　　卡方檢驗的思想是根據樣本數據推斷整體的頻次與指望頻次是否有顯著性差別。

　　公式以下：

2.5 beta 分佈

　　貝塔分佈（Beta Distribution）是一個做爲伯努利分佈和二項式分佈的共軛先驗分佈的密度函數，在及其學習和數理統計學中有重要應用。在機率論中，貝塔分佈也稱爲 B分佈，是指一組定義在（0， 1）區間的連續機率分佈。

　　B 分佈的機率密度函數爲：

　　其中，Γ(z) 是 Γ 函數，隨機變量 X 服從參數爲 α，β 的 B 分佈一般寫做：

　　B 分佈的累積分佈函數是：

　　其中 Bx(α，β ) 是不徹底 B 函數， Ix(α，β ) 是正則不徹底貝塔函數。

　　簡單說，Beta分佈能夠看做一個機率的機率分佈，當你不知道一個東西的具體機率是多少時，他能夠給出來全部機率出現的可能性大小。

　　舉一個簡單的例子，熟悉棒球運動的都知道有一個指標就是棒球擊球率（ betting average)，就是用一個運動員擊中的球數除以擊球的總數，咱們通常認爲 0.266 是正常水平的擊球率，而若是擊球率高達 0.3 就被認爲是很是優秀的。如今有一個棒球運動員，咱們但願可以預測他在這一賽季中的棒球擊球率是多少。你可能就會直接計算棒球擊球率，用擊中的數除以擊球數，可是若是這個棒球運動員只打了一次，並且還命中了，那麼他的擊球率就是 100%，這顯然是不合理的，由於根據棒球的歷史信息，咱們知道這個擊球率應該是 0.215~0.36之間纔對。因此對於這個問題一個最好的辦法就是用 beta 分佈，這表示咱們沒有看見這個運動員打球以前，咱們就有了一個大概的範圍。beta分佈的定義域是（0， 1），這就跟機率的範圍是同樣的。接下來咱們將這些先驗信息轉換爲 beta 分佈的參數，咱們知道一個擊球率應該是平均 0.27 左右，而他的範圍是 0.21~0.35 ，那麼根據這個信息，咱們能夠取 α = 81，β = 219 （擊中了 81 次，未擊中 219 次）。

　　之因此取這兩個參數是由於：

beta 分佈的均值是從圖中能夠看到這個分佈主要落在了（0.2， 0.35）區間，這是從經驗中獲得的合理範圍
在這個例子中，咱們的 x 軸就表示各個擊球率的取值，x 對應的 y 值就是這個擊球率所對應的機率，也就是說 beta 分佈能夠堪稱一個機率的機率分佈

　　0 和 β0 是一開始的參數，在這裏是 81 和 219，當 α 增長了 1（擊中了一次）。β 沒有增長（沒有漏球）。這就是咱們的新的 beta 分佈 Beta(81, 219)，能夠看到這個分佈其實沒有多大的變化，這是由於只打了一次球並不能說明什麼問題。但若是咱們獲得了更多的數據，假設一共打了 300 次，其中擊中了 100次，200次沒有擊中，那麼這一新分佈就是 Beta（81+100， 219+200）。注意到這個曲線變得更尖，而且平移到了一個右邊的位置，表示比平均水平要高。所以，對於一個咱們不知道機率是什麼，而又有一些合理的猜想時，Beta分佈可以很好的做爲一個表示機率的機率分佈。

3，極大似然估計與最大後驗機率估計

3.1 機率和似然的區別

　　其實將似然放在這裏有些不妥，畢竟似然和機率仍是有些區別的。不過我在學習似然以前，仍是先學習一下其與機率的區別。

　　機率用於在已知一些參數的狀況下，預測接下來的觀測所獲得的結果，而似然性則是用於在已知某些觀測所獲得的結果時，對有關事物的性質的參數進行估計。這裏須要對參數估計進行說明，參數估計（parameter estimation）則是根據從整體中抽取的樣本估計整體分佈中包含的未知參數的方法。人們經常須要根據手中的數據，分析或推斷數據反應的本質規律。即根據樣本數據如何選擇統計量去推斷整體的分佈或數字特徵等。統計推斷是數理統計研究的核心問題。所謂統計推斷是根據樣本對整體分佈或分佈的數字特徵等作出合理的推斷。他是統計推斷的一種基本形式，是數理統計學的一個重要分支，分爲點估計和區間估計兩部分。

　　順帶提一下先驗機率和後驗機率的區別：

　　先驗機率是指根據以往經驗和分析獲得的機率，如全機率公式中的，他每每做爲」由因求果「問題中的」因「出現。後驗機率是指在獲得」結果「的信息後從新修正機率，是」執果尋因「問題中的」因「。

3.2 頻率學派和貝葉斯學派

　　在說極大似然估計（Maximum Likelihood Estimate）與最大後驗機率估計（Maximum A Posteriori estimation）以前，咱們要學習一下對機率見解的兩大學派頻率學派和貝葉斯學派。他們看待世界的視角不一樣，致使他們對於產生數據的模型參數的理解也不一樣。

頻率學派

　　他們認爲世界是肯定的。他們直接爲事件自己建模，也就是說事件在屢次重複實驗中趨於一個穩定的值 p，那麼這個值就是該事件的機率。

　　他們認爲模型參數是個定值。但願經過相似解方程組的方式從數據中求得未知數。這就是頻率學派使用的參數估計方法——極大似然估計（MLE），這種方法每每在大數據量的狀況下能夠很好的還原模型的真實狀況。

貝葉斯學派

　　他們認爲世界是不肯定的，因獲取的信息不一樣而異。假設對世界先有一個預先的估計，而後經過獲取的信息來不斷調整以前的預估計。他們不試圖對事件自己進行建模，而是從旁觀者的角度來講。所以對於同一個事件，不一樣的人掌握的先驗不一樣的話，那麼他們所認爲的事件狀態也會不一樣。

　　他們認爲模型參數源自於某種潛在的分佈，但願從數據中推出該分部。對於數據的觀測方式不一樣或者假設不一樣，那麼推知的該參數所以也存在差別。這就是貝葉斯學派視角下用來估計參數的經常使用方法——最大後驗機率估計（MAP），這種方法在先驗假設比較靠譜的狀況下效果顯著，隨着數據量的增長，先驗假設對於模型參數的主導做用會逐漸削弱，相反真實數據樣例會大大佔據有利地位。極端狀況下，好比把先驗假設去掉，或者假設先驗知足均勻分佈的話，那麼她和極大似然估計就一模一樣。

3.3 似然函數的概念

　　統計學中，似然函數是一種關於統計模型參數的函數，表示模型參數中的似然性。給定輸出 x 時，關於參數 Θ 的似然函數 L(Θ|x) （在數值上）等於給定參數 Θ 後變量 X 的機率：

　　其中 P(x|Θ) 是密度函數，表示給定 Θ 下的聯合密度函數。而似然函數是關於 Θ 的函數，密度函數是關於 x 的函數。

　　似然函數在推斷統計學（Statistical inference）中扮演重要角色，如在最大似然估計和費雪信息之中的應用等等。「似然性」與「或然性」或「機率」意思相近，都是指某件事情發生的可能性，可是在統計學中，「似然性」與「或然性」或「機率」又有明確的區分。機率用於在已知一些參數的狀況下，預測接下來的觀測所獲得的結果，而似然性則是用於在已知某些觀測所獲得的結果時，對有關事物的性質的參數進行估計。

　　離散型機率分佈：假設一個關於參數 Θ ，具備離散型機率分佈 P 的隨機變量 X，則在給定 X 的輸出X時，參數 Θ 的似然函數可表示爲：

　　其中， p(x) 表示 X 取 x 時的機率。上式經常寫爲 P(X=x|Θ) 或者 P(X=x ;Θ)，須要注意的是，此處並不是條件機率，由於 Θ 不（總）是隨機變量。

　　若是有上式成立，則在參數 Θ1 下隨機變量 X取到 x 值的可能性大於 Θ2。

　　連續型機率分佈：假定一個關於參數 Θ，具備連續機率密度函數 f 的隨機變量X，則在給定 X 的輸出 x 時，參數 Θ 的似然函數可表示爲：

　　上式經常寫爲 f(x|Θ)，一樣須要注意的是，此處並不是條件機率密度函數。

　　連續狀況下的機率密度函數是：若是X是連續隨機變量給定足夠小的 ε >0 ，那麼其在（x-ε, x+ε）內的機率爲：

　　獲得的結果與離散型是一致的，機率表達了在給定參數 Θ 時X=x 的可能性而似然表示的是給定樣本 X=x 時，參數的可能性！

3.4 極大似然估計

　　極大似然估計方法（Maximum Likelihood Estimate，MLE）也稱爲最大概似估計或最大似然估計，它是頻率學派模型參數估計的經常使用方法，是求估計的另外一種方法。

　　似然，能夠簡單理解爲機率，可能性。極大似然估計，通俗理解就是：利用已知的樣本結果信息，反推最具備可能（最大機率）致使這些樣本結果出現的模型參數值！換句話說：極大似然估計提供了一種給定觀察數據來評估模型參數的方法，即「模型已定，參數未知」。

　　極大似然估計的原理：它是創建在極大似然原理的基礎上的一個統計方法，極大似然原理的直觀想法是，一個隨機試驗若有若干個可能的結果A，B，C，...，若在一次實驗中，結果A出現了，那麼能夠認爲實驗條件對A的出現有利，也即出現的機率P(A) 較大。極大似然原理的直觀想法咱們用心下面的例子說明。設甲箱中有 99 個白球，1個黑球；乙箱中有1個白球，99個黑球。現隨機取出一箱，再從抽取的箱子中隨機取出一球，結果是黑球，這一黑球從乙箱抽取的機率比甲箱抽取的機率大得多，這時咱們天然更多的相信這個黑球是取自乙箱的。通常來講，事件A發生的機率與某一未知參數 Θ 有關，Θ 取值不一樣，則事件發生的機率 P(A|Θ) 也不一樣，當咱們在一次實驗中事件A發生了，則認爲此時的 Θ 值應該是 t 的一切可能取值中使 P(A|Θ) 達到最大的哪個，極大似然估計法就是要選取這樣的 t 值做爲參數 t 的估計值，使所選取的樣本在被選的整體中出現的可能性爲最大。

　　或者看以下例子：

　　求極大似然函數估計值的通常步驟：

1，寫出似然函數
2，對似然函數取對數，並整理
3，求導數
4，解似然函數

　　利用高等數學中求多元函數的極值的方法，有如下極大似然估計法的具體作法：

1，根據整體的分佈，創建似然函數 L(x1, x2,...xn；Θ1,Θ2,...Θk)

2，當 L關於 Θ1,Θ2,...Θk 可微時，（由微積分求極值的原理）可知方程組：

　　定出 Θhat_i(i=1,2,...k)，稱以上方程組爲似然函數。

　　由於 L與 InL 具備相同的極大值點，因此 Θhat_i(i=1,2,...k) 也可由方程組

　　定出 Θhat_i(i=1,2,...k) ，稱以上方程組爲對數似然方程；Θhat_i(i=1,2,...k) 就是所求參數Θ_i(i=1,2,...k) 的極大似然估計值。

　　當整體是離散型的，將上面的機率密度函數 f(x, Θ1,Θ2,...Θk) 換成它的分佈律：

　　例1：設X服從參數 λ（ λ > 0）的泊松分佈， x1, x2,...xn 是來自 X 的一個樣本值，求 λ 的極大似然估計值。

　　由於 X的分佈律爲：

　　因此 λ 的似然函數爲：

　　對似然函數取對數：

　　再取 λ 的偏導數等於 0的解：

　　解得 λ 的極大似然估計值爲：

　　例2：假設一個盒子裏面有紅黑共10個球，每次有放回的取出，取了10次，結果爲7次黑球，3次紅球。問拿出黑球的機率 p 是多少？

　　咱們假設7次黑球，三次紅球爲事件 A，一個理所固然的想法就是既然事件 A 已經發生了，那麼事件 A 發生的機率應該最大。因此既然事件 A 的結果已定，咱們就有理由相信這不是一個偶然發生的事件，這個已發生的事件確定必定程度上反映了黑球在總體中的比例。因此咱們要讓模型產生這個總體事件的機率最大，咱們把這十次抽取當作一個總體事件 A，很明顯事件 A發生的機率是每次子事件機率之積。咱們把 P(A) 當作一個關於 p 的函數，求 P(A) 取最大值時的 p，這就是極大似然估計的思想。具體公式化描述爲 P(A) = p⁷*(1-p)³，接下來就是取對數轉換爲累加，而後經過求導令式子爲 0 來求極值，求出 p 的結果。

3.5 最大後驗機率估計

　　最大後驗機率估計（Maximum a posteriori probability estimate，簡稱 MAP）是貝葉斯模型參數估計的經常使用方法，與最大似然估計相似，可是在似然函數後面多乘了一項，即「待估計參數的先驗分佈」。故最大後驗估計能夠看作規則化的最大似然估計。

　　顧名思義就是最大化在給定數據樣本的狀況下模型參數的後驗機率。它依然是根據已知樣本，來經過調整模型參數使得模型可以產生該數據樣本的機率最大，只不過對於模型參數有了一個先驗假設，即模型參數可能知足某種分佈，再也不一味地依賴數據樣例（萬一數據量少或者數據不靠譜呢）。

　　根據貝葉斯理論，對於 θ 的後驗分佈：

　　後驗分佈的目標爲：

　　分母爲 f(x) ，是固定值。

　　MAP 認爲， θ 是一個隨機變量，其先驗機率密度函數是已知的，爲 P(θ)，因此其目標爲：

　　MLE 認爲，θ 是非隨機變量或者分佈未知的隨機變量，這兩種狀況均可以認爲 P(θ) 均勻分佈的，即該機率是一個固定值，P(θ)=C，因此其目標爲：

　　注意：最大後驗估計能夠看作是貝葉斯估計的一種特定形式。

　　在這裏舉個擲硬幣的例子：擲一枚硬幣10次，有10次正面朝上，0次反面朝上。問證實朝上的機率 θ。

　　在頻率學派看來，利用極大似然估計能夠獲得 θ = 10/10 = 1.0 。顯然當缺少數據時級大師讓郵寄會產生嚴重的誤差。

　　若是咱們利用最大後驗機率估計來看這件事，先驗認爲大機率下這個硬幣是均勻的（例如最大值取在0.5 處的 beta分佈），那麼P(θ|X) 是一個分佈，最大值會介於 0.5~1 之間，而不是武斷的給出 θ =1。

　　顯然，隨着數據量的增長，參數分佈會更傾向於向數據靠攏，先驗假設的影響會愈來愈小。

3.6 經驗風險最小化與結構風險最小化

　　經驗風險最小化與結構風險最小化是對於損失函數而言的。能夠說經驗風險最小化只側重訓練數據集上的損失降到最低；而結構風險最小化是在經驗風險最小化的基礎上約束模型的複雜度，使其在訓練數據集的損失降到最低的同時，模型不至於過於複雜，至關於在損失函數上增長了正則項，防止模型出現過擬合狀態。這一點也符合了奧卡姆剃刀原理：如無必要，勿增實體。

　　經驗風險最小化能夠看作是採用了極大似然估計的參數評估方法，更側重從數據中學習模型的潛在參數，並且是隻看重數據樣本自己。這種在數據樣本缺失的狀況下，很容易管中窺豹，模型發生過擬合的狀態；結構風險最小化採用了最大後驗機率估計的思想來推測模型參數，不只僅是依賴數據，還依靠模型參數的先驗假設。這樣在數據樣本不是很充分的狀況下，咱們能夠經過模型參數的先驗假設，輔助以數據樣本，作到儘量的還原真實模型分佈。

經驗風險最小化

　　MLE（極大似然估計）是經驗風險最小化的例子。當模型是條件機率分佈，損失函數是對數損失函數時，經驗風險最小化就等價於極大似然估計。這裏舉個邏輯（LR）迴歸的例子。

對於二分類的邏輯迴歸來講，咱們試圖把全部數據正確分類，要麼0，要麼1
經過累乘每一個數據樣例來模擬模型產生數據的過程，並最大化 ΠP(1)ΠP(0)
咱們須要經過取對數來實現機率之積轉爲機率之和 Σ lnP(1) + Σ lnP(0)
咱們能夠根據數據標籤的0， 1 特性來將上式改成 1/m*Σ(y * lnP(1) + (1-y) * lnP(0) )

　　這樣咱們經過極大似然估計來推導出了邏輯迴歸的損失函數，同時極大似然是經驗風險最小化的一個特例。

結構風險最小化

　　MAP（最大後驗機率估計）是結構風險最小化的例子。當模型是條件機率分佈，損失函數是對數損失函數，模型複雜度由模型的先驗機率表示時，結構風險最小化就等價於最大後驗機率估計。在這裏舉個推薦系統中的矩陣機率分解（PMF）的例子。

先說一下矩陣分解的原理：推薦系統的評分預測場景能夠看作是一個矩陣補全的遊戲，矩陣補全是推薦系統的任務，矩陣分解是其達到目的的手段。所以，矩陣分解是爲了更好地完成矩陣補全任務（欲其補全，先其分解之）。之因此能夠利用矩陣分解來完成矩陣補全的操做，那是由於基於這樣的假設——假設 UI矩陣是低秩的，即在大千世界中，總會存在類似的人或物，即物以類聚人以羣分，而後咱們能夠利用兩個小矩陣相乘來還原評分大矩陣。
它假設評分矩陣中的元素 Rij 是由用戶潛在偏好向量 Ui 和物品潛在屬性向量 Vj 的內積決定的，而且服從均值爲 Ui^TVj ，方差爲 σ² 的正態分佈：R_ij~n(Ui^TVj, σ²)
則觀測到的評分矩陣條件機率爲：
同時，假設用戶偏好向量與物品偏好向量服從均值都爲0，方差分別爲 σ² _UI, σ²_VI 的正態分佈：

根據最大後驗機率估計，能夠得出隱變量 U，V 的後驗機率爲：

接着，等式兩邊取對數 In，而且將正態分佈展開後獲得：

　　這樣，咱們經過最大後驗機率估計推導出了機率矩陣分解的損失函數。能夠看出結構風險最小化是在經驗風險最小化的基礎上增長了模型參數的先驗。

3.7 MLE 和 MAP 的聯繫

　　在介紹經驗風險與結構風險最小化的時候以具體的邏輯迴歸（LR）與機率矩陣分解（PMF）模型來介紹 MLE 和 MAP，接下來從宏觀的角度，不侷限於具體的某個模型來推導 MLE 和 MAP。

　　假設數據 x1, x2, ....xn 是知足獨立同分布（i.i.d）的一組抽樣 X=(x1, x2, ...xn)，接下來就利用兩種參數估計方法來求解。

MLE 對參數 θ 的估計方法以下：

MAP 對參數 θ 的估計方法以下：

　　因此 MAP 和 MLE 在優化時的不一樣就是在於增長一個先驗項 -log P(Θ)。

　　經過上面的分析能夠大體給出他們的聯繫：MAP(Θ) ≈ MLEP(Θ) -log P(Θ)

4，幾種經常使用的距離

　　在機器學習裏，咱們的運算通常都是基於向量的，一條用戶具備100個特徵，那麼它對應的就是一個 100 維的向量，經過計算兩個用戶對應向量之間的距離值大小，有時候能反映出這兩個用戶的類似程度（這個在KNN算法和K-Means算法中很明顯）。

　　這裏設有兩個 n 維變量 A={x11, x12, ... x1n} 和 B={x21, x22, ... x2n}，則一些經常使用的距離公式定義以下：

4.1 曼哈頓距離

　　曼哈頓距離也稱爲城市街區距離，數學定義以下：

　　曼哈頓距離的 Python實現：

from numpy import *

vector1 = mat([1,2,3])
vector2 = mat([4,5,6])

Manhattan_distance = sum(abs(vector1 - vector2))

4.2 歐式距離

　　歐式距離其實就是L2範數，數學定義以下：

　　歐式距離的Python實現：

from numpy import *

vector1 = mat([1,2,3])
vector2 = mat([4,5,6])

Euclidean_distance = sqrt((vector1 - vector2)*(vector1 - vector2).T)

4.3 閔可夫斯基距離

　　從嚴格意義上講，閔可夫斯基距離不是一組距離，而是一組距離的定義：

　　實際上，當 p=1 時，就是曼哈頓距離；當 p=2 時，就是歐式距離。

4.4 切比雪夫距離

　　切比雪夫距離就是 Lw，即無窮範圍，數學表達式以下：

　　切比雪夫距離Python實現以下：

from numpy import *

vector1 = mat([1,2,3])
vector2 = mat([4,5,6])

Chebyshev_distance = sqrt(abs(vector1 - vector2).max)

4.5 夾角餘弦

　　夾角餘弦的取值範圍爲 [-1, 1]，能夠用來衡量兩個向量方向的差別；夾角餘弦越大，表示兩個向量的夾角越小；當兩個向量的方向重合時，夾角餘弦取最大值1，當兩個向量的方向徹底相反時，夾角餘弦取最小值 -1。

　　機器學習中用這一律念來衡量樣本向量之間的差別，其數學表達式以下：

　　夾角餘弦的Python實現以下：

from numpy import *
vector1 = mat([1,2,3])
vector2 = mat([4,5,6])
IncludedAngleCosine = dot(vector1,vector2)/(linalg.norm(vector1)*linalg.norm(vector2))

4.6 漢明距離

　　漢明距離定義的是兩個字符串中不相同維數的數目。例如：字符串「1111」與「1001」之間的漢明距離爲2。

　　信息編碼中通常應使得編碼間的漢明距離儘量的小。

　　漢明距離的Python實現：

from numpy import *

matV = mat([1,1,1,1], [1,0,0,1])

Hanming_distance = nonzero(matV[0] - matV[1])

4.7 傑拉德類似係數

　　兩個集合 A 和 B 的交集元素在 A 和 B 的並集中所佔的比例稱爲兩個集合的傑拉德類似係數，用符號 J(A, B) 表示，數學表達式爲：

　　傑拉德類似係數是衡量兩個集合的類似度的一種指標。通常可將其用在衡量樣本的類似度上。

4.8 傑拉德距離

　　與傑拉德類似係數相反的概念是傑拉德距離，其定義式爲：

　　傑拉德距離的Python實現：

from numpy import *
import scipy.spatial.distance as dist

matV = mat([1,1,1,1],[1,0,0,1])
jaccard_distance =  dist.pdist(matV,'jaccard')

參考地址：距離 https://zhuanlan.zhihu.com/p/25197792

https://zhuanlan.zhihu.com/p/40024110

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。