隨機變量的分佈函數(或機率函數,或密度函數)已經很是全面了,精確地描述了這個隨機變量取值的統計規律性,那爲何咱們還須要研究隨機變量的數字特徵呢?這個小節咱們來討論一下這個話題。html
在不少實際問題中(特別是一些具體的非物理的問題域),從實際問題場景中採樣獲得的樣本集,通常時候都不會100%符合一個經典機率分佈(例如泊松分佈、高斯分佈等)。安全
例以下圖中,黑點表示咱們目前已知的樣本點分佈,藍色曲線表示某個非線性函數公式,恰好可以完美擬合這個樣本集:網絡
雖然上圖表面看好像已經擬合成功了,可是理論上來講,咱們是沒法寫出準確的機率分佈函數的,主要緣由有如下幾個方面: 函數
採樣不充分問題:一方面是因爲採樣不充分,根據隨機過程抽樣或者蒙特卡洛抽樣獲得的樣本點極可能只是真實機率機率分佈樣本空間的一個有限不均衡子集。採樣不充分是很是常見的,最極端的例子就是天文學和宇宙學,例如2019年很著名的黑洞照片,實際上是科學家們基於很是少的光子,經過數學建模的方式而「還原模擬」出來的。關於大數定理的其餘討論,能夠參閱另外一篇文章。優化
除了精確描述抽象事物的機率分佈困難以外,在一些時候,咱們有時候可能也並不須要去求出隨機變量的準確機率分佈。相反,咱們關心只是隨機變量的取值在某些方面的統計數字特徵,而不是它的全貌。典型的例子如:spa
這類特徵每每經過若干個實數來反映,在機率論中稱它們爲隨機變量(或該隨機變量所服從的相應分佈)的數字特徵。.net
隨機變量的數字特徵有不少,這裏列舉一些理論分析和工程應用中經常使用的數字特徵:code
咱們在這篇文章中選擇一些在數據分析和網絡安全數學建模經常使用的數字特徵進行討論,這也是筆者比較關注的領域,關於其餘部分的詳細討論,建議讀者朋友閱讀原書。htm
Relevant Link: blog
《機率論與數理統計》同濟大學數學系 第四章
設離散型隨機變量 X 的機率函數爲:
當級數收斂時,稱
的值爲隨機變量 X 的數學指望(簡稱爲指望或均值),記做E(X),即:
因爲隨機變量的分佈刻畫了隨機變量取值的統計規律性,所以,當 X 服從某個分佈時,咱們也稱E(X)是這個分佈的指望。
若是隨機變量知足等該模型,則指望公式就退化成了咱們熟悉的「求平均數」公式。
設連續型隨機變量 X 的密度函數爲f(x),當積分收斂時,稱
的值爲隨機變量 X 的數學指望(簡稱指望或均值),記做:
數學指望的性質以下:
當X~B(n,p)時,X的機率函數爲
所以,根據指望的數學計算公式得:
當X~P(λ)時,X的機率函數爲
所以有:
當X~U(a,b)時,X的指望爲:
當X~E(λ)時,X的指望爲:
當X~N(μ,σ)時,X的指望爲:
整體地歸納來講,指望E(X)的直觀含義是:指望反映了隨機變量 X 的平均取值,具體對於不一樣的機率分佈來講,平均取值的具體含義和代指會有所變化和不一樣。
二項分佈的指望值E(X)=np,其意義表示隨機變量X的平均值,或平均水平。
在具體問題中,例如金融組合分組,若是對投資結果進行數學建模,則指望表明投資結果的平均值。
泊松分佈的指望值是λ,其意義表示某個時間段內,隨機事件發生的平均次數。
均勻分佈的指望值是樣本值域區間的中位數,中心點。
指數分佈的指望是1/λ,其意義表示某個時間段,隨機事件發生的平均時間間隔。它和泊松分佈正好互爲倒數。
數學指望刻畫隨機變量取值的平均數,有直觀含義,同時它也有物理含義。
若在數軸上放置一單位質量的細棒,在離散點 xi 處分佈着質點其質量爲 mi,則表示該細棒的重心座標。
若在數軸上放置一單位質量的細棒,它又質量密度函數f(x),則表示該細棒的重心座標。以下圖所示:
設X是一個隨機變量,稱
爲X的方差,稱爲X的標準差(或標準誤差)
在工程技術中普遍地使用標準差,由於它與隨機變量自己有相同的量綱(具備實際物理意義)。可是在理論推導中,使用方差較方便。
值得注意的是,方差本質上是隨機變量函數的指望,即隨機變量和均值離差的指望,因此有:
當n=1時,畫出其函數圖:
能夠看到,當正反事件機率相同,即等概的時候,方差達到最大值。這也是機率分佈的最大熵原理。
隨着試驗次數n的增長,總體方差也線性增大。
可見對於伯努利實驗結果來講,實驗次數增長,指望和方差都是不收斂的,會無限增大。
當X ~ P(λ)時,E(X) = λ,,所以, 泊松分佈的方差爲
泊松分佈的指望和方差是相等的,都等於λ。
當X~R(a,b)時,E(X) = 1/2 * (a + b ),因此有
所以,均勻分佈的方差爲
當X~E(λ)時,,所以,指數分佈的方差爲
值得注意的是,方差和標準差並非惟一的用來度量的數據分佈波動程度的數字特徵,數學上極差也能夠發揮相似的做用,除此以外,組合型數字特徵也是數據分析中經常使用的統計量。
Relevant Link:
《機率論與數理統計》同濟大學數學系 第四章 第一節
已知X是任意的隨機變量,當E(X)和D(X)存在時,對隨機變量X做變換:
這個變換稱之爲隨機變量中心化。
由指望與方差的性質推得:
即中心化後的隨機變量,指望爲0,方差不變。
當D(X)>0時,對隨機變量X做變換:
這個變換稱之爲隨機變量標準化。
由指望與方差的性質推得:
須要注意的是,本章討論的隨機變量中心化和標準化,屬於特徵工程裏特徵歸一化的處理方法之一,除此以外還有其餘的特徵歸一化處理方法,關於這部分的討論,能夠參閱另外一篇文章。
Relevant Link:
《機率論與數理統計》同濟大學數學系 第四章 第二節
單個隨機變量的數學特性當然很是有用,可是在理論分析和工程實踐中,遇到最多的仍是兩個及多個隨機變量之間的互相關係。這節咱們來討論兩個隨機變量之間的相互關係,多個隨機變量之間的關係是相似的,能夠以此類推。
設(X,Y)是一個隨機變量,稱
爲隨機變量X和Y的協方差。
按照方差的定義,cov(X,X)= D(X)。協方差本質上是二維隨機變量函數g(X,Y) = [X - E(X)][Y - E(Y)]的指望,即兩個隨機變量方差之間的關係。
計算時經常使用下列公式:
協方差反映了X和Y之間的協同變化關係,具體爲:
設Z = [X - E(E)] [Y - E(Y)],cov(X,Y) = E(Z),則
特別的,當Y= X時,cov(X,Y) = cov(X,X) = D(X),協方差退化爲方差。
利用協方差,能夠把兩個隨機變量方差公式表達成:
協方差考察了隨機變量之間協同變化的關係,可是在實際使用中存在一個問題,即量綱不一致問題。例如,若是要討論新生嬰兒的身高X和體重Y的協方差,若採用兩個不一樣的單位,「米和千克」或者「釐米和克」,後者協方差可能會是前者的數千倍!因爲量綱的不一樣致使X與Y的協方差先後不一樣。
實際上,回顧文章前面中心化和標準化的知識可知,協方差其實是把X,Y分別中心化後的,它的值受X與Y量綱大小的影響。爲了解決量綱不一致的問題,就有了相關係數。
設(X,Y)是一個二維隨機變量,當D(X) > 0,D(Y) > 0時,稱爲X與Y的相關係數,記做ρ(X,Y),即
這就是隨機變量X和Y的相關係數,又稱爲標準化協方差。
利用相關係數,能夠把方差的公式表達成
設(X,Y)是一個二維隨機變量,當ρXY = 0時,下列命題等價:
設(X,Y)是一個二維隨機變量,當D(X) > 0,D(Y) > 0時,相關係數有以下性質:
隨機變量相互獨立和線性無關都刻畫了隨機變量之間的關係,相互獨立時必定線性無關,但反之不必定成立,以下圖:
舉例說明,設隨機變量Z服從區間[0,2π]上的均勻分佈,令 X = sinZ,Y = cosZ
根據邊緣機率分佈公式得:
根據方差公式有:
,同理有
根據指望公式有:
根據協方差公式有:
因此隨機變量X和Y不相關。
可是由於,因此f(X,Y) != f(X) * f(Y),因此X與Y不相互獨立。
可見,相互獨立是一種比不相關更強的關係。能夠這樣說:
對於二維隨機變量(X,Y),稱向量
爲(X,Y)的指望向量(或均值向量),稱矩陣
爲(X,Y)的協方差矩陣,因爲cov(X,X) = D(X),所以,n維隨機向量(X1,... ,Xn)的協方差矩陣爲
Relevant Link:
《機率論與數理統計》同濟大學數學系 第四章 第四節
有一個公司,每個月的廣告費用和銷售額,以下表所示:
咱們把廣告費和銷售額畫在二維座標內,就可以獲得一個散點圖,利用一元線性迴歸作出一條擬合直線,y = ax + b。
使用最小二乘法進行參數估計,就能夠求出a和b了。
最終的迴歸擬合直線爲:Y=1.98X+2.25。
從機率分佈的角度來看線性迴歸模型的參數估計過程。咱們設樣本點對應的隨機變量爲X,參數對應的隨機變量爲Y。
從上圖能夠獲得:ρ(X,Y) != 1
因此X和Y不知足徹底線性相關的關係,也即:不存在不爲零的常數k與常數c,使得P(Y = kX + c) = 1
從線性方程組求解的角度來看,直接基於原始輸入樣本點求解線性方程組就是無解的。
因此,線性方程組引入了」顯著性檢驗「這個度量方法,用來評估參數估計的結果和目標樣本點的擬合程度,經常使用的顯著性檢驗方法包括:
這裏咱們以R2爲例進行說明,在R2中,量化度量擬合程度的公式以下
R2顯著性由兩個不一樣的偏差損失,SSR和SSE比例相除獲得。
SSE和SSR共同組成了SST(總殘差損失),咱們分別介紹
殘差平方和(SSE,Sum of Squaresfor Error):因變量的各實際觀測值(給定點的Y值)與迴歸值(迴歸直線上的Y值)的差的平方和,它是除了x對y的線性影響以外的其餘因素對y變化的做用,是不能由迴歸直線來解釋的
R^2的取值在[0,1]之間,越接近1說明擬合程度越好。
如今回到隨機變量協方差的視角,重寫上述SSR和SSE公式,會發現:
因此總R2顯著性公式本質上度量了參數隨機變量X和樣本隨機變量Y之間的協同關係,即協方差。協方差越接近1,擬合程度就越高。
上個小節咱們用了一個具體的例子來講明瞭線性迴歸中參數估計擬合程度和隨機變量中相關係數的等價關係。這個小節咱們將這個結果泛化爲通常性的結論。
迴歸係數b是有單位的,但若對b做消去單位的標準化處理,即對b中x,y的離均差以各自的標準差 和
爲單位:
故有時將相關係數稱爲標準迴歸係數
則
可改寫爲:
筆者這裏用隨機變量相關性分析的視角來討論迴歸分析,並非說相關分析和迴歸分析是同一個東西。
相關分析與迴歸分析在實際應用中有密切關係。然而它們存在着不一樣:
例如,以X、Y分別記小學生的數學與語文成績,感興趣的是兩者的關係如何,而不在於由X去預測Y
Relevant Link:
https://www.cnblogs.com/LittleHann/p/7354706.html#_label1 https://zhuanlan.zhihu.com/p/49221154 https://blog.csdn.net/mengjizhiyou/article/details/82177830 https://blog.csdn.net/xiaojianpitt/article/details/5453023 http://soundrain.net/2017/05/25/20170525-%E4%BB%8E%E7%BB%9F%E8%AE%A1%E5%AD%A6%E8%A7%92%E5%BA%A6%E7%9C%8B%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E4%B8%AD%E7%9A%84%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0/
迴歸模型的參數最優化的目標是獲得一個最優的判別式模型,而模型參數機率密度估計的目標是獲得一個生成式機率模型。
簡單來講,他們之間的聯繫是:經過損失函數最優化技巧獲得的模型參數,等價於求E(X - Yobj),即參數隨機變量和樣本點的差值函數的指望均值。
關於這方面的討論,能夠參閱另外一篇文章。
若是將回歸模型的參數空間看做是是一個機率分佈的話,損失函數求解的目標就是尋找和樣本隨機變量相關度最高的參數隨機變量分佈。除了相關性度量以外,還能夠從信息論KL散度角度來度量參數估計結果和樣本分佈的擬合程度。
這個話題的一些討論能夠參閱這篇文章。關於信息論和熵原理的更多討論,筆者會在以後的迭代中繼續完善這篇文章。