至如今爲止,機率論彷彿還算簡單,只是把一些直觀的東西用數學語言表達出來而已。當有了實變和泛函的基礎後,你會發現機率論只是分析學的一個普通特例,故更豐富的內容還需咱們提高以後再去欣賞。機率論中不少極限問題,一度成爲其核心課題,它們不只發掘了更多有趣的結論,更是解釋了不少深層的隨機現象。極限定理須要不少高級的分析學工具,故這裏僅作結論性的介紹,一是體會高級機率論的無窮奧妙,二是爲數理統計準備必要的結論。函數
咱們仍是要回答最初的問題:機率究竟什麼?咱們創建的機率系統與直覺上的機率是否兼容?起初咱們就把事件和固定的數值掛鉤,就假定了隨機事件有一個不變的屬性和值。這個值本來就是用來描述隨機現象的發生頻率,如今能夠來驗證機率可否描述頻率,這對機率論的自洽性很是重要。工具
機率就是事件到實數的映射,一個事件的機率\(p\)應當與大量重複試驗中事件出現頻率\(\dfrac{\mu_n}{n}\)接近。那什麼是接近?怎麼度量這個接近?頻率序列是一個無限的隨機變量序列,說它接近\(p\),比較直觀的定義固然是相似極限的定義,即對任意\(\varepsilon>0\),都要有式(1)成立。這個現象被稱爲伯努利大數定律,它標誌着大數定律研究的開始,後續的研究都始於這裏。blog
\[\lim\limits_{n\to\infty}P\left\{\left|\dfrac{\mu_n}{n}-p\right|<\varepsilon\right\}=1\tag{1}\]事件
從隨機變量的角度看,頻率實際上是\(n\)個獨立伯努利變量的平均值,咱們天然想把大數定律推廣到獨立同分布隨機變量的平均值,看它是否是接近分佈的指望。甚至更通常地,能夠討論任意隨機變量序列\(\xi_1,\xi_2,\cdots\),看它們的平均值是否是接近平均指望(式(2))。數學
\[\lim\limits_{n\to\infty}P\left\{\dfrac{1}{n}\sum\limits_{k=1}^n|\xi_k-E\xi_k|<\varepsilon\right\}=1\tag{2}\]it
對此,切比雪夫證實了:當\(\xi_i\)兩兩不相關,且方差一致有界時有式(2)成立,它被稱爲切比雪夫大數定律。證實中首次應用了切比雪夫不等式,今後矩不等式成爲研究大數定律的重要手段。該定律有兩個簡單的變形,一個是獨立不一樣伯努利分佈下的泊松大數定律,另外一個是隻需條件\(D(\sum\xi_k)/n^2\to 0\)的馬爾科夫大數定律,這些證實都很簡單,請自行完成。基礎
在獨立同分布的場合,辛欽大數定律甚至不要求方差存在,這進一步放寬了大數定律的條件,它在數理統計中很是重要。證實須要用到著名的連續性定理,大概是說若是分佈函數收斂於另外一個分佈函數,則它們的特徵函數也收斂於特徵函數。論證中還要用到特徵函數與分佈函數的惟一肯定性,特徵函數的威力因而可知一斑。變量
對於式(1)的定義,應該沒有太多的異議和懷疑,但仔細看式(2),有個地方值得咱們商討。式中對某個表達式取了機率,一貫嚴格的你不由要問:這個機率對應的事件是什麼?它的樣本空間是什麼?兩個隨機變量能隨意地加減嗎?運算的意義是什麼?這個思考是很是必要的,並且也是對機率論的認識的一次提高,由直觀數學向嚴格的分析數學進行轉變。更具體地,咱們是要嚴格定義隨機變量序列\(\{\xi_n\}\)收斂於另外一個隨機變量\(\xi\)。擴展
判斷收斂離不開運算和度量,但要使得運算\(\xi_n-\xi\)有意義,必須是\(\xi_n,\xi\)來自同一個機率空間。這樣來看,不等式\(|\xi_n(\omega)-\xi(\omega)|<\varepsilon\)就有了肯定的意義,它表示知足條件的樣本點,且全部這樣的樣本點能夠組成事件(考慮聯合分佈)。對這樣的事件就能夠用機率度量,所以咱們就有了式(3)隨機變量序列收斂的定義,它也叫\(\{\xi_n\}\)以機率收斂於\(\xi\),式(1)就是依機率收斂的例子。gc
\[\forall(\varepsilon>0),\;\lim\limits_{n\to\infty}P\left\{\left|\xi_n(\omega)-\xi(\omega)\right|<\varepsilon\right\}=1\tag{3}\]
有了這個嚴謹的定義以後,咱們進一步研究隨機變量收斂。隨機變量雖然叫「變量」,但它的特性更像是一個「函數」,而函數列的收斂與數列的收斂有一個很大的不一樣,那就是關於一致收斂。依機率收斂本質上就是通常的「數列收斂」,它只考察單個隨機變量\(\xi_n\)與\(\xi\)的接近程度,但並無考慮在每一個樣本點的收斂狀況以及其一致性。咱們但願的天然是在每一個樣本點都一致收斂,換個說法就是:一致收斂的樣本點集的機率爲\(1\)。這樣的收斂性能夠表示爲式(4),用純集合的語言通常寫做式(5),所以這種收斂也叫以機率1收斂。
\[\forall(\varepsilon>0),\;\lim\limits_{k\to\infty}P\left\{\bigcap_{n=k}^{\infty}\left|\xi_n(\omega)-\xi(\omega)\right|<\varepsilon\right\}=1\tag{4}\]
\[P\left\{\lim_{n\to\infty}\xi_n=\xi\right\}=P\left\{\bigcap_{m=1}^{\infty}\bigcup_{k=1}^{\infty}\bigcap_{n=k}^{\infty}\left(|\xi_n-\xi|<\dfrac{1}{m}\right)\right\}=1\tag{5}\]
不難證實,以機率1收斂是比以機率收斂更強的條件,它真正表示了「到處收斂」。在這樣的收斂定義下,把無窮伯努利實驗作爲樣本空間,博雷爾從新討論了伯努利實驗的大數定律,獲得了式(6)的強大數定律。這是對頻率穩定性的更強證據,在偶然性中發現了必然性,在機率論史上有重要意義。接下來科爾莫戈洛夫對獨立同分布的隨機變量序列,證實了式(7),還找到了式(7)對獨立隨機變量序列成立的充分條件:\(\sum\dfrac{D\xi_k}{k^2}\)收斂,它們都被稱爲科爾莫戈洛夫強大數定律。
\[P\left\{\lim\limits_{n\to\infty}\dfrac{\mu_n}{n}=p\right\}=1\tag{6}\]
\[P\left\{\lim\limits_{n\to\infty}\dfrac{1}{n}\sum\limits_{i=1}^n(\xi_i-E\xi_i)=0\right\}=1\tag{7}\]
大數定律集中討論了隨機變量\(\xi_1,\xi_2,\cdots\)平均值的收斂狀況,如今來進一步研究隨機變量之和自己的分佈特色。咱們知道,要研究分佈特色,最好先將方差統一爲\(1\),爲此咱們還得假設隨機變量是兩兩不相關的,從而能夠像式(8)那樣將其標準化。
\[\zeta_n=\dfrac{\mu_n-np}{\sqrt{npq}};\;\zeta_n=\dfrac{\sum\limits_{i=1}^n(\xi_i-E\xi_i)}{\sqrt{\sum\limits_{i=1}^nD\xi_i}}\tag{8}\]
最先由棣莫弗和拉普拉斯分別對\(p=\dfrac{1}{2}\)和\(p\ne\dfrac{1}{2}\)時的伯努利試驗進行討論,獲得了式(9)的棣莫弗-拉普拉斯極限定理。這個結論如此地迷人,對它的研究長達兩個世紀,故也稱中心極限定理。後來Lindeberg使用連續定理,證實了式(9)在獨立同分布場合也成立,這個結論對數理統計很是重要。
\[\lim\limits_{n\to\infty}P\left\{\zeta_n<x\right\}=\dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}\,\text{d}t\tag{9}\]
中心極限定理還有其它更弱的成立條件,但都很複雜,這裏暫且不談。式(9)中的分佈稱爲正態分佈,它是另外一個很是廣泛的「原子分佈」,當一個隨機變量受不少因素的影響,但每一個因素的影響又不大時,這個隨機變量每每就服從正態分佈。
在中心極限定理中,咱們才遲遲地提到正態分佈,主要是缺乏它並不影響對初等機率的討論。但正態分佈又的確是很是常見和重要的分佈,這裏對它在作一些擴展討論,順便也是對基礎概念的一次複習。
正態分佈主要用於描述偏差分佈,即隨機變量的機率以某個值爲中心向兩邊遞減,而且是足夠光滑的。但這樣的性質太過平凡,爲何必定要是正太分佈呢?咱們須要其它的條件來獲得更多的細節。既然描述的是偏差,這個分佈應該有這樣一個性質:對任意的屢次測量結果\(x_1,x_2,\cdots,x_n\),均值\(\bar{x}\)老是最好的接近。這裏的「任意」既表示\(x_i\)能夠爲全部可能值,也表示對全部正整數\(n\)都成立。這個條件雖然合理,但看起來很是苛刻,下面就來嘗試一下,看知足條件的分佈是否存在。
另外一方面,「最好的接近」須要用數學語言描述出來,設分佈的密度函數是\(p(x)\),則式(10)左的似然函數應該在\(\bar{x}\)處取到最大值。關於似然函數,之後再數理統計中再詳細介紹,這裏單拎出這個式子也不違反直觀。下面爲了簡化計算,用\(\ln\,L(x)\)來代替討論,也就是說式(10)右成立,整理後有式(11)。提醒一下,式(11)應該對任意\(x_i\)和\(n\)都成立。
\[L(x)=\prod\limits_{i=1}^np(x_i-x)\;\Rightarrow\;[\ln\,L(x)]'|_{x=\bar{x}}=0\tag{10}\]
\[g(x)=\dfrac{p'(x)}{p(x)}\;\Rightarrow\;\sum\limits_{i=1}^ng(x_i-\bar{x})=0\tag{11}\]
當\(n=1\)時,只能獲得\(p'(0)=0\),\(n=2\)時也只能獲得\(g(x)\)的對稱性,結論都太過平凡。當\(n=3\)時,因爲\(x_1-\bar{x},x_2-\bar{x}\)的任意性,能夠獲得恆等式(12)左,進而獲得式(12)右。注意,當\(n>3\)時,也是獲得相似式(12)左的表達式,所以\(g(x)\)存在且只有形式\(ax\)。繼續還原,容易獲得式(13),由密度函數的積分可求出\(K\),最終獲得的即是一元正態分佈。注意它的中心爲\(0\),故式(10)對中心非零的正態分佈不成立,這是因爲式(10)的性質就是針對偏差的。
\[g(x)+g(y)=g(x+y)\;\Rightarrow\;g(x)=ax\tag{12}\]
\[\ln\,p(x)=\frac{a}{2}x^2+b\;\Rightarrow\;p(x)=Ke^{\frac{a}{2}x^2}\tag{13}\]
若是把中心也考慮在內,式(14)就是通常的正態分佈,簡記爲\(N(\mu,\sigma^2)\)。容易驗證,\(\mu\)是它的數學指望,而\(\sigma^2\)是它的方差,正態分佈的圖像以下。特別地,\(N(0,1)\)稱爲標準正態分佈,其對應的密度函數和分佈函數如式(15)。
\[p(x)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\tag{14}\]
\[\varphi(x)=\dfrac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}};\;\;\varPhi(x)=\int_{-\infty}^x\varphi(y)\,\text{d}y\tag{15}\]
式(16)驗證了\(N(0,1)\)的規範性,這個證實思想可用於計算式(13)中的\(K\)。能夠求得正態分佈的特徵函數是式(17),當\(\mu=0\)時,易知正態分佈關於\(\sigma^2\)具備再生性,即若是\(\xi_i\sim N(0,\sigma_i^2)\),則有\(\xi_1+\xi_2\sim N(0,\sigma_1^2+\sigma_2^2)\)。
\[\left(\int_{-\infty}^{+\infty}\varphi(x)\,\text{d}x\right)^2=\dfrac{1}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}e^{-\frac{x^2+y^2}{2}}\,\text{d}x\text{d}y=\dfrac{1}{2\pi}\int_0^{\infty}\int_{0}^{2\pi}r\,\text{d}r\text{d}\varphi=1\tag{16}\]
\[f_{\xi}(t)=e^{i\mu t-\frac{1}{2}\sigma^2t^2}\tag{17}\]
以上一元正態分佈僅受一個維度因素的影響,如今假設某個隨機變量受\(n\)個維度的影響,簡單起見,設每一個維度都是獨立的隨機變量\(\eta_i\sim N(0,1)\)。可知,隨機向量\(\overrightarrow{\eta}=(\eta_1,\cdots,\eta_n)\)的密度爲式(18)。函數這樣的多元正態分佈是平凡的,但對它進行簡單的線性變換,便獲得通常的多元正態分佈,這裏的順序與教材相反。
\[p(\overrightarrow{y})=\dfrac{1}{(2\pi)^{\frac{n}{2}}}e^{-\frac{1}{2}\parallel\overrightarrow{y}\parallel^2} \tag{18}\]
現實中的觀察角度每每是\(\eta_i\)的線性組合(式(19)),由特徵數的再生性可知\(\xi\sim N(0,\sum a_i^2)\),即每一個線性角度看都是正態分佈。假設取\(n\)的個線性無關的\(\xi_j\),且有\(\overrightarrow{\xi}=\overrightarrow{\eta}A\),由線性變換的結論可知有式(20)。若是記矩陣\(\varSigma=A^TA\),並加入中心\(\overrightarrow{\mu}\),便獲得通常多元正態分佈的表達式(21)。
\[\xi=\sum_{i=1}^na_i\eta_i\;\Rightarrow\;f_{\xi}(t)=\prod\limits_{i=1}^ne^{-\frac{1}{2}a_i^2t^2}\tag{19}\]
\[p(\overrightarrow{x})=\dfrac{1}{(2\pi)^{\frac{n}{2}}|A|}\exp\{-\frac{1}{2}\overrightarrow{x}(A^TA)^{-1}\overrightarrow{x}^T\}\tag{20}\]
\[p(\overrightarrow{x})=\dfrac{1}{(2\pi)^{\frac{n}{2}}|\varSigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}(\overrightarrow{x}-\overrightarrow{\mu})\varSigma^{-1}(\overrightarrow{x}-\overrightarrow{\mu})^T\}\tag{21}\]
式(22)計算了\(\xi_i,\xi_j\)的協方差,不難發現,它正是\(\varSigma[i,j]\),爲此\(D\overrightarrow{\xi}=\varSigma=\{\sigma_{ij}\}\)也稱爲協方差矩陣。由式(23)可知協方差矩陣爲正定的(隨機變量線性相關才取\(0\)),反之對任意的正定對稱矩陣\(\varSigma\),由線性代數的知識,可將分佈(21)轉化爲標準式(18)。這就說明,能夠對任意正定對稱矩陣\(\varSigma\),定義式(22)爲多元正態分佈,記做\(N(\overrightarrow{\mu},\varSigma)\)。
\[\sigma_{ij}=E(\xi_i\xi_j)=E\left(\sum\limits_k a_{ik}\xi_k\cdot\sum\limits_k a_{jk}\xi_k\right)=\sum\limits_k a_{ik}a_{jk}\tag{22}\]
\[\sum\limits_{i,j}\sigma_{ij}t_it_j=E\left[\sum\limits_{i=1}^nt_i(\xi_i-E\xi_i)\right]^2\geqslant 0\tag{23}\]
一樣利用線性變換,也能求得多元正態分佈的特徵函數(24),它和多元正態分佈互相肯定。把中心設爲\(0\)後,利用特徵函數能夠獲得更多有用的結論。好比任意子空間\(\overrightarrow{\xi'}=(\xi_1,\cdots,\xi_m)\)的分佈都是正態分佈,協方差矩陣正好取對應子矩陣,特別地,邊界分佈\(\xi_i\)是正態分佈\(N(\mu_i,\varSigma[i,i])\)。
\[f(\overrightarrow{t})=\exp\{\text{i}\overrightarrow{\mu}\overrightarrow{t}^T-\frac{1}{2}\overrightarrow{t}\varSigma\overrightarrow{t}^T\}\tag{24}\]
多元正態分佈的線性本質將獨立性和不相關性統一了起來,由於對於互不相關的正態變量,協方差矩陣爲對角矩陣,由特徵函數的形式特色知變量是相互獨立的。通常地還有,對隨機正態分佈\(\overrightarrow{\xi}=(\overrightarrow{\xi}_1,\overrightarrow{\xi}_2)\),\(\overrightarrow{\xi}_1,\overrightarrow{\xi}_2\)相互獨立的充要條件是:對應的對應的協方差矩陣\(\varSigma_{12}=0\)。更本質地,從式(22)能夠看出,正態變量獨立的充要條件是:對應線性係數(式(19))正交。
對於正態向量\(\overrightarrow{\xi}_1,\overrightarrow{\xi}_2\),由上面的討論和簡單的矩陣運算,可將變換爲互相獨立的向量\(\overrightarrow{\zeta}_1,\overrightarrow{\zeta}_2\)。當\(\overrightarrow{\xi}_1\)肯定時,由獨立性知\(\overrightarrow{\zeta}_2\)的條件分佈不變,仍然是\(N(0,\varSigma_{22}-\varSigma_{21}\varSigma_{11}^{-1}\varSigma_{12})\)(經過式(25)計算)。再根據式(25)知\(\overrightarrow{\xi}_2\)的條件機率是\(\overrightarrow{\zeta}_2\)的一個偏移,加上中心後便獲得條件機率\(\overrightarrow{\xi}_2|\overrightarrow{\xi}_1\)(式(26))。特別地,對二元正態分佈有式(27),注意\(\varSigma_{12}=\rho\sigma_1\sigma_2\)。
\[\overrightarrow{\zeta}_1=\overrightarrow{\xi}_1;\;\;\overrightarrow{\zeta}_2=-\overrightarrow{\xi}_1\varSigma_{11}^{-1}\varSigma_{12}+\overrightarrow{\xi}_2\tag{25}\]
\[\overrightarrow{\xi}_2|\overrightarrow{\xi}_1\sim N\left(\overrightarrow{\mu}_2+(\overrightarrow{\xi}_1-\overrightarrow{\mu}_1)\varSigma_{11}^{-1}\varSigma_{12},\varSigma_{22}-\varSigma_{12}\varSigma_{11}^{-1}\varSigma_{21}\right)\tag{26}\]
\[\xi_2|\xi_1\sim N\left(\mu_2+\rho\dfrac{\sigma_2}{\sigma_1}(x-\mu_1),\;\sigma_2^2(1-\rho^2)\right)\tag{27}\]
【全篇完】