線性迴歸

一個栗子
  數據:工資和房屋面積(2個特徵)
  目標:預測銀行會貸款給我多少錢(標籤)

  考慮:工資和房屋面積都會影響最終銀行貸款的
  結果那麼它們各自有多大的影響呢?(參數)算法

 

 

姓名 工資(元) 房屋面積(平方米) 可貸款金額(元)
張三 6000 58 30000
李四 9000 77 55010
王五 11000 89 73542
陸永劍 15000 54 63201

 

 

 

 

 

 

通俗解釋
X1,X2就是咱們的兩個特徵(年齡,房屋面積)Y是銀行最終會借給咱們多少錢

找到最合適的一條線(想象一個高維)來最好的擬合咱們的數據點函數

 

假設 是年齡的參數, 是房屋面積的參數3d

擬合的平面: (是偏置項)blog

整合:io

 

 偏差

真實值和預測值之間確定是要存在差別的(用來表示該偏差)table

對於每一個樣本float

偏差 是獨立而且具備相同的分佈,而且服從均值爲0方差爲的高斯分佈im

 

獨立:張三和李四一塊兒來貸款,他倆不要緊
同分布:他倆都來得是咱們假定的這家銀行d3

 

高斯分佈:銀行可能會多給,也可能會少給,可是絕大多數狀況下
這個浮動不會太大,極小狀況下浮動會比較大,符合正常狀況數據

 

 

 預測值與偏差: 

因爲偏差服從高斯分佈: 

帶入:

  高斯分佈的積分爲1,因此能夠把閉區間的面積看做機率,中間區域的面積最大,說明值落在中間的機率大,由圖可知,有大機率的點是落在x=0附近的,高斯分佈的縱座標無實際意義,縱座標的值與方差θ的平方有關,θ越大,表示樣本的震盪幅度越大(不會密集的分佈在0附近),那麼圖像就越矮,縱座標越小。

2.似然函數L(θ):

目的:計算出什麼樣的參數θ和咱們的數據(x,y)組合以後,能知足咱們的真實值

       形象理解:好比說咱們擲硬幣,擲了十次,結果是九次正面朝上,一次反面朝上,那麼認爲下一次正面朝上的機率θ就是90%;
        似然函數就是用結果(或樣本)(9正,1負的數據)來推算參數(weight權重、機率),也就是說經過參數θ獲得的預測的算法,可以儘量地擬合樣本數據(已知結果),從而最大化的使得預測結果更偏向於真實數據。
        似然函數說白了就是結果導向,由已知結果來推算出預測參數θ,由於結果已經發生了,那麼機率p(y|x;θ)確定是取最大的!

極大似然值或最大似然估計 ——分析以下:

       最大似然估計,英文名是 maximum likelihood estimation, MLE,最大的可能性估計,這裏的可能性 我理解爲預測參數與樣本中的x結合,使得樣本結果y發生的機率

*從公式的角度理解:

       咱們追求的目標是預測值與實際值越接近越好,那麼換句話說就是但願偏差ε越小越好,甚至接近於零。
        前面解釋了似然函數是用數據來推算參數,通俗的說,咱們用結果來計算參數值,而咱們想要的結果是預測值=實際值,即ε->0,ε的取值處於0的附近;那麼也就是說p(ε)的值要越大越好(前面解釋過了,機率越大,ε的分佈越是集中在0附近)
        咱們也知道,p(ε)的值和p(y|x;θ)的值是相等的,那麼(p(y|x;θ)的機率也是越大越好。
       那麼爲何極大似然函數是一個累乘的機率積呢,由於一個單獨的似然函數,機率最大時解出的θ是最知足那一個樣本的參數θ,而咱們的目標是要訓練出一個擬合所有樣本數據的θ,那麼咱們就不得不用累乘,來求一個聯合機率密度,這個值最大時,表示 θ 使得樣本集中預測值與真實值的誤差是最小的!

 對數似然:

解釋:乘法難解,加法就容易了,對數裏面乘法能夠轉換成加法

 

展開化簡:

 

 目標:讓似然函數(對數變換後也同樣)越大越好

(最小二乘法)

 

 目標函數:

求偏導:

    

    

 

偏導等於0:

相關文章
相關標籤/搜索