機率和信息論。算法
機率論,表示不肯定性聲明數學框架。提供量化不肯定性方法,提供導出新不肯定性聲明(statement)公理。人工智能領域,機率法則,AI系統推理,設計算法計算機率論導出表達式。機率和統計理論分析AI系統行爲。機率論提出不肯定聲明,在不肯定性存在狀況下推理。信息論量化機率分佈不肯定性總量。Jaynes(2003)。 機器學習常常處理不肯定量,有時處理隨機(非肯定性)量。20世紀80年代,研究人員對機率論量化不肯定性提出信服論據。Pearl(1998)。微信
不肯定性來源。被建模系統內存的隨機性。不徹底觀測,肯定系統不能觀測到全部驅動系統行爲變量,也呈隨機性。不徹底建模,模型捨棄觀測信息,致使預測不肯定性。簡單而不肯定規則比複雜而肯定規則更實用,即便真正規則是肯定的而且建模型系統足夠精確容納複雜規則。網絡
機率論分析事件發生頻率。事件能夠重複。結果發生機率p,反覆無限次,有p比例會致使某個結果。機率表示信任度(degree of belief)。直接與事件發生的頻率相聯繫,頻率派機率(frequentist probability)。涉及到肯定性水平,貝葉斯機率(Bayesian probability)。不肯定性常識推理,列出若干條指望性質,知足惟一方法是貝葉斯機率和頻率機率等同。Ramsey(1926)。機率,處理不肯定性邏輯擴展。邏輯提供形式化規則,給定命題真假,判斷另外一些命題真假。機率論提供形式化規則,給定命題似然,計算其餘命題爲真似然。框架
隨機變量(random variable)。dom
隨機取不一樣值變量。無格式字體(plain typeface)小寫字母表示隨機變量,手寫體小寫字母表示隨機變量取值。隨機變量對可能狀態描述。伴隨機率分佈批定每一個狀態可能性。隨機變量能夠離散或連續。離散隨機變量有限或可數無限多狀態。可能沒有數值。連續隨機變量伴隨實數值。機器學習
機率分佈(probability distribution)。函數
隨機變量或一簇隨機變量每一個狀態可能性大小。描述機率分佈方式取決隨機變量離散仍是連續。學習
離散型變量和機率質量函數。離散弄變量機率分佈用機率質量函數(probability mass function,PMF)描述。大寫字母P表示機率質量函數。每一個隨機變量有一個不一樣機率質量函數,根據隨機變量推斷所用PMF。機率質量函數將隨機變量每一個狀態映射到隨機變量取該狀態機率。x=x機率用P(x)表示,機率1表示x=x肯定,機率0表示x=x不可能發生。明確寫出隨機變量名稱,P(x=x)。定義隨機變量,用~符號說明遵循分佈,x~P(x)。機率質量同時做用多個隨機變量。多個變量機率分佈爲聯合機率分佈(joint probability distribution)。P(x=x,y=y)表示x=x和y=y同時發生機率。簡寫P(x,y)。函數P是隨機變量x的PMF,P定義域必須是x全部可能狀態集合。FORALL(x) ELEMENT(X),0<=P(x)<=1。不可能發生事件機率爲0,不存在機率更低狀態。確保必定發生事件機率爲1,不存在機率更高狀態。SUM(x ELEMENT(X),P(x))=1。歸一化(normalized)。字體
離散型隨機變量x有k個不一樣狀態,x均勻分佈(uniform distribution),每一個狀態均等可能。PMF,P(x=x i)=1/k。全部i成立。k是一個正整數,1/k是正的。SUM(i, P(x=x i))=SUM(i, 1/k)=k/k=1。分佈知足歸一化條件。 連續型變量和機率密度函數。連續型隨機變量,機率密度函數(probability density function,PDF)描述機率分佈。函數p是機率密度函數。p定義域是x全部可能狀態集合。FORALL(x) ELEMENT(X),P(x)>=0,不要求p(x)<=1。INTEGRAL(p(x)dx)=1 。機率密度函數p(x)給出落在面積爲DELTA(x)無限小區域內機率爲p(x)DELTA(x)。機率密度函數求積分,得到點集真實機率質量。x落在集合S中的機率,p(x)對集合求積分獲得。單變量,x落在區間[a,b]機率是INTEGRAL([a,b],p(x)dx) 。人工智能
實數區間均勻分佈。函數u(x;a,b),a和b 是區間端點,知足b>a。符號";"表示以什麼爲參數。x做函數自變量,a和b做定義函數參數。確保區間外沒有機率,全部x NOTELEMENT([a,b]),令u(x;a,b)=0。在[a,b]內,u(x;a,b)=1/(b-a)。任何一點都非負。積分爲1。x~U(a,b)表示x在[a,b]上均勻分佈。
邊緣機率。
定義在子集上的機率分佈爲邊緣機率分佈(marginal probability distribution)。離散型隨機變量x和y,知道P(x,y),求和法則(sum rule)計算FORALL(x) ELEMENT(X),P(x=x)=SUM(y,P(x=x,y=y)) 。邊緣機率名稱來源手算邊緣機率計算過程。P(x,y)每一個值被寫在每行表示不一樣x值、每列表示不一樣y值網格中,對網絡中每行求和,求和結果P(x)寫在每行右邊紙邊緣處。連續型變量,用積分替代求和,p(x)=INTEGRAL(p(x,y)dy。
條件機率。
某個事件上在給定其餘事件發生時出現機率。給定x=x,y=y發生條件機率記P(y=y|x=x)。P(y=y|x=x)=P(y=y,x=x)/P(x=x)。條件機率只在P(x=x)>0有定義。不能計算給定在永遠不會發生事件上上的條件機率。不要把條件機率和計算當採用某個動做後會發生什麼相混淆。
條件機率鏈式法則。
任何多維隨機變量聯合機率分佈,均可以分解成只有一個變量的條件機率相乘形式。P(x (1) ,…,x (n) )=P(x (1) )PRODUCT(i=2,n,P(x (i) |x (i) ,…,x (i-1) ))。機率鏈式法則(chain rule)或乘法法則(product rule)。從條件機率定義獲得,使用兩次定義獲得,P(a,b,c)=P(a|b,c)P(b,c)。P(b,c)=P(b|c)P(c)。P(a,b,c)=P(a|b,c)P(b|c)P(c)。
獨立性和條件獨立性。
兩個隨機變量x和y,機率分佈表示成兩個因子乘積形式,一個因子只包含x,另外一個因子只包含y,兩個隨機變量相互獨立(independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y)=p(x=x)p(y=y)。x和y的條件機率分佈對於z的每個值都寫成乘積形式,隨機變量x和y在給定隨機變量z時條件獨立(conditionally independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y|z=z)=p(x=x|z=z)p(y=y|z=z)。簡化形式表示獨立笥和條件獨立性,x UPTACK(y)表示x和y相互獨立,x UPTACK(y)|z表示x和y在給定z時條件獨立。
指望、方差和協方差。
函數f(x)關於某分佈P(x)的指望(expectation)或指望值(expected value),當x由P產生,f做用於x,f(x)的平均值。對於離散型隨機變量,求和獲得,E x~P [f(x)]=SUM(x,P(x)f(x))。連續型隨機變量,求積分獲得,E x~p [f(x)]=INTEGRAL(p(x)f(x)dx) 。機率分佈在上下文指明,只寫出指望做用隨機變量名稱簡化,Ex[f(x)]。指望做用隨機變量明確,不寫腳標,E[f(x)]。默認,假設E[.]表示對方括號內全部隨機變量值求平均。沒有歧義時,能夠省略方括號。指望線性,E x [af(x)+bg(x)]=aEx[f(x)]+bE x [g(x)]。a和b不依賴x。
方差(variance)衡量,x依據機率分佈採樣時,隨機變量x函數值差別。Var(f(x))=E[(f(x)-E[f(x)]) 2 ]。方差很小時,f(x)值造成簇比較接近指望值。方差的平方根爲標準差(standard deviation)。
協方差(covariance),給出兩個變量線性相關性強度及變量尺度。Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]。協方差絕對值很大,變量值變化很大,距離各自的均值很遠。協方差爲正,兩個變量傾向於同時取得相對較大值。協方差爲負,一個變量傾向於取較大值,另外一個變量傾向於取較小值。其餘衡量指標,相關係數(correlation),每一個變量貢獻歸一化,只衡量變量相關性,不受各個變量尺度大小影響。
協方差和相關性有聯繫,是不一樣概念。聯繫。兩個變量互相獨立,協方差爲零。兩個變量協義差不爲零,必定相關。獨立性和協方差性質徹底不一樣。兩個變量協方差爲零,必定沒有相互依賴,但具備零協方差可能。從區間[-1,1]均勻分佈採樣一個實數x,對一個隨機變量s採樣。s以1/2機率值爲1,不然爲-1。令y-sx生成一個隨機變量y。x和y不相互獨立,x徹底決定y尺度.Cov(x,y)=0。
隨機向量x ELEMENT(R n )協方差矩陣(convariance matrix)是n*n矩陣,知足,Cov(x) i,j =Cov(x i ,x j )。協方差矩陣對角元是方差,Cov(x i ,x i )=Var(x i )。
參考資料:
《深度學習》
歡迎推薦上海機器學習工做機會,個人微信:qingxingfengzi
我有一個微信羣,歡迎一塊兒學深度學習。