隨機變量的分佈函數包含了它的所有信息,隨之咱們就須要對隨機變量進行一些定量分析,即經過相對簡單的數值來度量隨機變量的某些特徵。有些特徵對於隨機變量來講比較基本、比較重要,好比平均值、分散程度等,本篇就集中討論這些特徵。ide
隨機變量可取到一些實數值,對其最經常使用的一種度量即是平均值,而每一個值上的機率(或機率密度)應看成爲權值。具體來講,在離散場合,把式(1)右定義爲隨機變量\(\xi\)的「平均值」,它也被稱爲數學指望。要注意一點,咱們但願平均值不受\(x_i\)順序的影響,故數學指望的定義還要加上絕對收斂的條件(式(1)左)。函數
\[\sum\limits_{i=1}^{\infty}|x_i|p(x_i)<\infty\;\Rightarrow\;E\xi=\sum\limits_{i=1}^{\infty}x_ip(x_i)\tag{1}\]工具
對連續場景,密度函數與本質上就是機率分佈,故可將式(1)推廣成式(2)左。當它絕對收斂時,也被稱爲\(\xi\)的數學指望。爲了有統必定義,須要引進式(2)右的Stieltjes積分,它的嚴格定義和統一性證實須要用到實變函數的知識,如下僅借用其形式以免離散和連續的分類討論。設計
\[E\xi=\int_{-\infty}^{+\infty}xp(x)\,\text{d}x;\;\;E\xi=\int_{-\infty}^{+\infty}x\,\text{d}F_{\xi}(x)\tag{2}\]ip
把平均值叫成數學指望實際上是有道理的,由於對隨機現象來講,它就是理論上的指望值。數學指望是對隨機向量最基本的一個度量值,單一的度量值更便於應用,它存在於社會經濟的各方面,爲經濟行爲提供了決策的依據。同步
• 已知人羣中某疾病的患病率爲\(p\),請設計一種驗血方法,使得驗血次數儘可能少(可混合驗);數學
• 有無限多的\(N\)種卡片,求集齊它們平均須要抽多少次?產品
• \(n\)根繩子放在箱子中,隨機將繩頭兩兩相連,求造成圈數的指望值。it
對隨機變量的討論,總離不開對其函數的分析,這裏也照例看看隨機變量函數的數學指望。若是理解了數學指望的定義,便知道它其實就是加權平均值,在這裏變量函數就是值,而變量的機率仍是權值,故函數的指望必定是式(3)所示。固然這只是一個直觀解釋,嚴格證實仍是須要實變函數的知識。table
\[Eg(\xi_1,\cdots,\xi_n)=\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}g(x_1,\cdots,x_n)\,\text{d}F(x_1,\cdots,x_n)\tag{3}\]
式(3)通常計算起來比較困難,但利用積分運算的特色,在有些常見狀況下能夠簡化運算。首先若是\(g(x_1,\cdots,x_n)=g_1(x_1)\cdots g_n(x_n)\),且\(\xi_1,\cdots,\xi_n\)互相獨立,則能夠把積分分離獲得式(4)。另外若是\(g(x_1,\cdots,x_n)=g_1(x_1)+\cdots+g_n(x_n)\),不須要獨立性便有式(5)成立。
\[E[g(x_1,\cdots,x_n)]=Eg_1(\xi_1)Eg_2(\xi_2)\cdots Eg_n(\xi_n)\tag{4}\]
\[E[g_1(\xi_1)+\cdots+g_n(\xi_n)]=Eg_1(\xi_1)+\cdots+Eg_n(\xi_n)\tag{5}\]
式(4)的典型特例是式(6)左,其中\(\xi_1,\cdots,\xi_n\)互相獨立。式(5)的典型特例是線性函數(式(6)右),它不要求獨立性,這一點很是有用。好比前面咱們已經知道:二項分佈是獨立的伯努利分佈之和,帕斯卡分佈是獨立的幾何分佈之和,埃爾朗分佈是獨立指數分佈的和,它們的指望值能夠直接求得。
\[E\xi_1\xi_2\cdots\xi_n=E\xi_1E\xi_2\cdots E\xi_n;\;\;E\left(\sum_{i=1}^{\infty} a_i\xi_i+b\right)=\sum_{i=1}^{\infty} a_iE\xi_i+b\tag{6}\]
• \(M\)個產品中有\(m\)個次品,採用不放回抽樣,求次品數的指望;
• (報童問題)賣報數服從泊松分佈,求天天進多少張收益最大。
數學指望\(E\xi\)是隨機變量的平均值,或者能夠稱做隨機變量的中心\(\mu\)。上面還提過,數學指望是變量值的加權平均,稍做擴展即可定義式(7)左的\(k\)階零點矩。之因此叫零點矩,是由於單個值是隨機變量與\(0\)的誤差的\(k\)次冪。若是以中心\(\mu\)爲誤差參考,則能夠定義式(7)右的\(k\)階中心矩。
矩在數學裏有多相似的概念,是一個很常規的度量,這裏僅做簡單的討論。
\[m_k=E\xi^k;\;\;c_k=E(\xi-E\xi)^k\tag{7}\]
和指望同樣,矩也要先討論存在性,因爲\(|\xi|^{k-1}\leqslant 1+|\xi|^k\),故有結論:若是\(k\)階矩存在,則低於\(k\)階的矩都存在。另外,不難按二項式展開\(k\)階中心矩,獲得式(8)左。而後用反演公式即可獲得式(8)右,固然也能夠直接計算。
\[c_k=\sum_{i=0}^{k}\binom{k}{i}(-m_1)^{k-i}m_i;\;\;m_k=\sum_{i=0}^{k}\binom{k}{i}m_1^{k-i}c_i\tag{8}\]
當\(k=2\)時,中心矩\(c_2\)能夠當作是隨機變量對中心偏離程度的一種度量(式(9)),它被稱爲隨機變量的方差。因爲矩的良好分析性質,選取\(c_2\)做爲偏離度的度量很是便於處理。爲了與隨機變量有相同的量綱,也稱\(\rho=\sqrt{D\xi}\)爲標準差。
\[\rho^2=D\xi=E(\xi-E\xi)^2=E\xi^2-(E\xi)^2\tag{9}\]
關於方差和標準差,我有些本身的理解,可能不太準確。下面咱們不免會拿線性代數中的向量和隨機變量作對比,我想在這裏先創建一個直觀的聯繫。向量能夠看作是相對原點的一個偏移,標準化向量則是統一了偏移的絕對值而保利了方向信息。隨機變量則能夠看做是相對指望值的偏移,標準差是統一了偏移的絕對值而保留了分佈信息。因而可知,中心矩比零點矩有更實際的意義,對隨機變量作中心化處理每每是必須的。
剛纔提到方差具備很好的分析性質,這裏就舉一些簡單的例子,而且這些結論之後也是常常用到的。首先有一個簡單的不等式(10),它代表中心是與隨機變量誤差最小的值,這也很符合「中心」的含義,用中心化的隨機變量的\(2\)階矩定義方差是明智的。
\[E(\xi-c)^2=E(\xi-E\xi)^2+(E\xi-c)^2\geqslant D\xi\tag{10}\]
方差表示隨機變量對中心的偏移程度,這個描述有更具體的佐證嗎?還真有!結論代表,方差能夠用來估算隨機變量在中心周圍的分佈。具體來看式(11)的推導,其中\(\varepsilon>0\)爲任意正數,該式整理後即是著名的切比雪夫不等式(12)。這個不等式對中心某個範圍外的隨機變量進行了很好的估算,特別地,它還能夠直接證實:方差爲\(0\)的隨機變量是常數。
\[D\xi\geqslant\int\limits_{|x-E\xi|\geqslant\varepsilon}\varepsilon^2\,\text{d}F(x)=\varepsilon^2P(|\xi-E\xi|\geqslant\varepsilon)\tag{11}\]
\[P(|\xi-E\xi|\geqslant\varepsilon)\leqslant\dfrac{D\xi}{\varepsilon^2}\tag{12}\]
最後仍是照例看看,隨機變量的函數的方差如何計算。方差的計算比指望複雜的多,故函數的方差很難有好的性質,而且目前咱們的工具還不夠。這裏就先討論最簡單的一元一次函數\(\eta=k\xi+c\),容易驗證有式(13)成立,它代表偏移不影響誤差,而縮放則影響較大,這是符合直覺的。有時候爲了研究隨機變量分佈的本質特色,會將其均值和方差統一成\((0,1)\),式(14)定義的\(\xi^*\)便叫標準化的隨機變量。標準變量的切比雪夫不等式有更簡單的表達式(15),體會剛纔說的「本質特色」。
\[D(\xi+c)=D(\xi);\;D(k\xi)=k^2D(\xi)\tag{13}\]
\[\xi^*=\dfrac{\xi-E\xi}{\sqrt{D\xi}}\;\Rightarrow\;E\xi^*=0,\;D\xi^*=1\tag{14}\]
\[P(|\xi^*|\geqslant\varepsilon)\leqslant\dfrac{1}{\varepsilon^2}\tag{15}\]
當研究線性函數的方差\(D(\xi+\eta)\)時,你會發現沒法繞開對\(E\xi\eta\)的討論,中心化後即是對式(16)的討論,該式被稱爲\(\xi,\eta\)的協方差。不難發現,它是方差概念的推廣,方差比如是向量的一個平方和範數,協方差則比如向量的內積,平方和範數是內積的特例,而方差是協方差的特例。爲此,對協方差的研究,徹底能夠參照對向量內積的研究。標準化的內積表示向量間的線性關係,內積爲\(0\)表示向量正交,內積爲\(\pm 1\)則是共線的。在歐幾里得空間中,標準化內積更是直接表示了直線的夾角。
\[\text{cov}(\xi,\eta)=E[(\xi-E\xi)(\eta-E\eta)]=E(\xi\eta)-E\xi\cdot E\eta\tag{16}\]
爲此,咱們很興奮地大膽猜想,標準化後的協方差(式(17))必定也是隨機向量某種「線性關係」的度量。咱們須要對此作進一步的驗證,爲簡單起見,只需討論中心化後的變量\(\xi,\eta\),而此時\(\rho\)的表達式中只有\(E(\xi\eta)\)和\(E\xi^2\cdot E\eta^2\)。由形式特色,咱們不難想到想用判別式法,即由式(18)獲得式(19)。它也被稱爲柯西不等式,等號成立的充要條件是,存在常數\(t_0\)使得\(\eta=t_0\xi\)。注意,柯西不等式自己是不須要\(\xi,\eta\)中心化的。
\[\rho=\dfrac{\text{cov}(\xi,\eta)}{\sqrt{D\xi\cdot D\eta}},\;\;(|\rho|\leqslant 1)\tag{17}\]
\[E(t\xi-\eta)^2=t^2E\xi^2-2tE(\xi\eta)+E\eta^2\geqslant 0\tag{18}\]
\[(E\xi\eta)^2\leqslant E\eta^2\cdot E\eta^2\tag{19}\]
有柯西不等式馬上能獲得\(|\rho|\leqslant 1\),而且等號成立時有\(\xi^*=\pm\eta^*\)。這說明把\(\rho\)做爲線性關係的度量是頗有合理的,\(\rho\)所以也被稱爲隨機變量的相關係數。當\(\rho=0\)時咱們稱隨機變量是不相關的,須要強調的是這裏的相關只是線性相關。隨機變量\(\xi,\eta\)不相關的等價條件是\(E\xi\eta=E\xi E\eta\),中心化後即是\(E\xi\eta=0\),這和向量直交徹底對應!
到此爲止,咱們能夠繼續研究方差\(D(\xi+\eta)\)了。首先容易有式(20)成立,該式有時能夠用來計算協方差。當\(\xi,\eta\)不相關時,有\(\text{cov}(\xi,\eta)=0\),\(D(\xi+\eta)\)便有了更簡單的表達式\(D\xi+D\eta\)。更通常地,若是\(\xi_1,\cdots,\xi_n\)兩兩不相關,則有式(21)成立。
\[D(\xi+\eta)=E(\xi+\eta)^2=D\xi+D\eta+2\text{cov}(\xi,\eta)\tag{20}\]
\[D\left(\sum\limits_{i=1}^na_i\xi_i+b\right)=\sum\limits_{i=1}^na_i^2D\xi_i+b\tag{21}\]
因爲不相關僅針對線性關係,它是比獨立性更弱的條件,也就是說獨立的隨機變量必定是不相關的,這能夠由等價條件\(E\xi\eta=E\xi E\eta\)直接得出。但反之,不相關的隨機變量卻也多是不獨立的,舉個簡單的例子本身體會\(\eta=\xi^2\)。然而對獨立同分布隨機變量,式(21)必然成立,這個結論能夠說明:取屢次測量的平均值能夠下降偏差(式(22))。
\[D(\dfrac{1}{n}\sum\limits_{i=1}^n\xi_i)=\dfrac{\sigma^2}{n}\tag{22}\]
• 有兩隻鉛筆,一樣只測量兩次,如何下降偏差?
如今來考慮一個問題,假定隨機變量\(\xi,\eta\)存在某個函數關係\(\eta=f(\xi)\),但事先只知道它們的聯合分佈(由試驗所得),則如何找到\(f(x)\)的最佳逼近\(g(x)\)?何爲最佳逼近?有了方差的基本思想後,可知要求\(E(\eta-g(\xi))^2\)達到最小是比較合理的。相似式(10)的證實,顯然應該取\(g(x)=E\{\eta|\xi=x\}\),爲此隨機變量\(g(\xi)=E\{\eta|\xi\}\)也被稱爲\(\eta\)關於\(\xi\)的迴歸。容易驗證它知足式(23),它被稱爲重指望公式,能夠用來間接計算\(E\eta\)。
\[E[E\{\eta|\xi\}]=E\eta\tag{23}\]
以上回歸模型要求能提供條件分佈,這對樣本點有必定要求,當樣本點在每一個變量上都比較隨機時,則沒法使用。但當預估\(\xi,\eta\)有代參函數關係\(\eta=f(\xi,c_1,\cdots,c_n)\)時,一樣能夠經過計算\(E[\eta-f]^2\)的極值而獲得參數值。好比假設變量有線性關係\(L(x)=ax+b\),爲使函數\(c(a,b)=E[\eta-(a\xi+b)]^2\)達到最值,可令其偏導數爲零,最終便能獲得式(24)(請自行計算)。
\[L(x)=\rho\dfrac{\sigma_2}{\sigma_1}(x-\mu_1)+\mu_2\tag{24}\]
\(L(\xi)\)稱爲\(\eta\)關於\(\xi\)的線性迴歸,式中的每一個參數均可以由樣本點估算得來,對樣本點的採集沒有特殊的要求。容易算得\(\eta-L(\xi)\)的方差是\(\sigma_2^2(1-\rho^2)\),這再次說明了\(\rho\)是隨機變量線性關係的度量。咱們還能夠說,\(L(\xi)\)已經提取了\(\eta\)關於\(\xi\)的全部線性關係,即\(\eta-L(\xi)\)與\(\xi\)是不相關的(自行驗證),該結論被稱爲均值-方差理論。有沒有發現這裏有最小二乘法的影子?它們本質是相通的。
雖然分佈函數給出了機率分佈的統一形式,但不少分佈函數並無良好的分析性質,這也使得它的應用很是受限。咱們急須要一種新的函數,它既能完整表達整個機率分佈,又具備十分良好的分析性質。對非負離散隨機變量,咱們不難想到數列的母函數,由機率分佈的規範性知,式(25)在\(|s|\leqslant 1\)上一致且絕對收斂。
\[P(s)=\sum_{k=0}^{\infty}p_ks^k=Es^{\xi}\tag{25}\]
母函數有着很是好的分析性質,尤爲一些常見分佈的母函數也很簡潔,這爲處理問題提供了方便,甚至能夠用母函數取代機率分佈。一個頗有用的結論是式(26),利用它們能夠方便地計算指望和方差。
\(\xi\) | \(b(k;n,p)\) | \(g(k;p)\) | \(b(k;\lambda)\) |
\(P(s)\) | \((ps+q)^n\) | \(\dfrac{ps}{1-qs}\) | \(e^{\lambda(s-1)}\) |
\[E\xi=P'(1);\;\;D\xi=P''(1)+P'(1)-[P'(1)]^2\tag{26}\]
按照慣例,引入一個新特徵,總要考察一下變量函數的特徵。在這裏不難證實,對獨立隨機變量\(\xi,\eta\),設它們的母函數爲\(A(s),B(s)\),則\(\xi+\eta\)的母函數爲\(A(s)B(s)\)。特別地,\(n\)個獨立同分布隨機變量和的母函數是\(P^n(s)\),這對咱們在「常見分佈」那篇中提到的分佈頗有用。
最後再來看個問題,對於獨立同步變量\(\xi_i\),計算\(\zeta=\xi_1+\xi_2+\cdots+\xi_{\eta}\),其中\(\eta\)也是隨機變量。設\(\xi_i,\eta\)相互獨立且母函數分別爲\(F(s),G(s)\)。不難證實(從略),\(\zeta\)的母函數爲\(G[F(s)]\),並進而求得\(E\zeta=E\xi\cdot E\eta\)。
• 擲5顆篩子,求和爲\(15\)的機率;
• 蠶的產卵數服從泊松分佈,每一個卵成蟲律爲\(p\),求成蟲數的分佈。
母函數雖然好用,但它只能運用在離散隨機變量,對於連續隨機變量或更通常的狀況,有沒有相似的工具呢?若是你學過傅里葉分析,應當知道傅里葉變換就是母函數思想的升級版本,爲此咱們把式(27)稱爲隨機變量\(\xi\)的特徵函數。對離散狀況它就是母函數\(P(e^{it})\),連續狀況則是密度函數的傅里葉變換形式。關於傅里葉變換,我目前還知之甚少,故很少作闡述。
\[f_{\xi}(t)=Ee^{it\xi}=\int_{-\infty}^{\infty}e^{itx}\,\text{d}F_\xi(x)\tag{27}\]
和母函數同樣,對獨立隨機變量\(\xi_i\),它們和的特徵函數知足式(28)。離散變量的特徵函數能夠直接由母函數修改獲得,這裏僅列出指數分佈的特徵函數(式(29)),埃爾朗分佈的特徵函數天然也就出來了。
\[f_{\xi_1+\xi_2+\cdots+\xi_n}(t)=f_{\xi_1}(t)f_{\xi_2}(t)\cdots f_{\xi_n}(t)\tag{28}\]
\[\xi\sim \lambda e^{-\lambda x}\;\Rightarrow\;f_{\xi}(x)=\left(1-\dfrac{it}{\lambda}\right)^{-1}\tag{29}\]
仔細觀察式(28),特徵函數中的冪函數將加法變成乘法,但不少變量的特徵函數仍保持着冪函數成分,乘法此時還能變成加法。具體來講,若是含參分佈\(F(k)\)的特徵函數有形式\(X^k\),那麼對於獨立同分布\(\xi_1,\xi_2\)有式(30)成立,它被稱爲特徵函數的再生性。知足這個特色的分佈函數比較多,好比二項分佈、帕斯卡分佈、泊松分佈、埃爾朗分佈等。
\[\xi\sim F(x;k),\;f_{\xi}=X^k\;\Rightarrow\;(\xi_1+\xi_2)\sim F(x;k_1+k_2)\tag{30}\]
對於隨機向量\(\overrightarrow{\xi}=(\xi_1,\cdots,\xi_n)\),一樣能夠定義特徵函數(31)。由這個式子不可貴到,隨即向量子空間的特徵函數是將其它維的\(t_i\)取\(0\)獲得,好比\((\xi_1,\cdots,\xi_m)\)的特徵函數爲\(f(t_1,\cdots,t_m,0,\cdots,0)\)。還能夠知道,\(\xi_i\)相互獨立的充要條件是\(f(t_1,\cdots,t_n)=\prod f_{\xi_i}(t_i)\)。
\[f_{\overrightarrow{\xi}}(t_1,\cdots,t_n)=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}e^{i(t_1x_1+\cdots+t_nx_n)}\,\text{d}F_{\overrightarrow{\xi}}(\overrightarrow{x})\tag{31}\]
隨機變量還有一個很是重要的度量方法,就是考察其「不肯定性」的程度、或者包含的「信息量」。可想而知,這個量與指望、方差都沒有關係,它只關乎「隨機程度」。這個概念叫「熵」,它是一個很是有趣且豐富的課題,屬於機率論的一個應用分支。缺乏「熵」的概念並不影響機率論自己,故這裏不做介紹,之後會在《信息論》中展開討論。