統計學習方法——P1

背景基礎知識備忘算法


 

  平均差 函數

    MD=(∑|xi-x'|)/n學習

  加權平均差優化

    A.D=(∑|xi-x'|fi)/∑fispa


 

  方差3d

    

  標準差htm

    SD=方差的平方根
blog


 

  分佈函數:
    
 
    設X是一個隨機變量,x是任意實數,函數稱爲X的分佈函數。有時也記爲X~F(x)    對於任意實數
,有
        
        
  
  機率密度函數:
    
    隨機數據的機率密度函數:表示瞬時幅值落在某指定範圍內的機率,所以是幅值的函數。它隨所取範圍的幅值而變化。
   密度函數f(x) 具備下列性質:
    1     
 
    2    
 
    3    
  對機率密度函數做 傅里葉變換可得特徵函數。
  特徵函數與機率密度函數有一對一的關係。所以知道一個分佈的特徵函數就等同於知道一個分佈的機率密度函數。
  

 

  指望get

  離散型:數學

    離散型隨機變量的一切可能的取值xi與對應的機率Pi(=xi)之積的和稱爲該離散型隨機變量的數學指望 

      離散型隨機變量的數學指望

  連續型:

    若隨機變量X的分佈函數F(x)可表示成一個非負可積函數f(x)的積分,則稱X爲連續性隨機變量,f(x)稱爲X的機率密度函數(分佈密度函數)。

      


 

監督學習:

  目標:學習出一個模型對於給定輸入,對其相應輸出作出很好的預測

 

  訓練數據集:T={(xi,yi)}  i=1,2,3.......N   

 

  統計學習要素:

    方法=模型+策略+算法

 

   模型:所要學習的條件機率分佈或者決策函數

   策略:略    損失最小的最優化的目標函數

   算法:學習模型的計算方法

  exp:

    損失函數 L(Y,f(x))   f(x)爲預測值:

      0-1損失:

        L(Y,f(x))=1   Y !=f(x)

        L(Y,f(x))=0   Y==f(x)

      平方損失:

        L(Y,f(x))=∑(Y-x')2

      絕對損失:

        L(Y,f(x))=|Y-f(x)|

      對數損失   對數似然損失函數:

        L(Y,P(Y|X))=-logP(Y|X)

  損失指望函數:

    Rexp (f)=Ep [L(Y,f(x))]=∫x*y L(y,f(x))p(x,y)dxdy   爲模型聯合分佈的指望損失

  因爲對聯合分佈機率 p(x,y) 未知 對訓練集T有經驗損失爲

    Rexp (f)=(∑L(yi,f(xi)))/N   i=1,2,3,4.......N    爲模型的平均損失

  由大數定理:當樣本容量N趨向於無窮時,經驗損失趨向於指望損失     因爲N在實際問題中不可能趨向於無窮,用平均損失估計指望損失不許確,必須對他校訂

  方法有:1 經驗風險最小化    2 結構風險最小化

  經驗風險最小化: 對於假設空間F

    min (∑L(yi,f(xi)))/N  的模型爲最佳模型   

  結構風險最小化:

    min (∑L(yi,f(xi)))/N+λJ(f)   J(f)爲模型複雜度  模型越複雜   J(f)越大   反之亦然   λ爲係數  用來權衡經驗風險和模型複雜度


以上爲背景知識,下一篇看模型評估以及模型選擇

相關文章
相關標籤/搜索