迴歸算法

迴歸算法:線性迴歸、邏輯迴歸算法

 

一、線性迴歸函數

  線性迴歸計算的是數值問題,最後預測的結果是數值。房價問題中,如何擬合出一條直線最佳匹配我全部的數據?如圖1。通常使用「最小二乘法」來求解。「最小二乘法」的思想是這樣 的,假設咱們擬合出的直線表明數據的真實值,而觀測到的數據表明擁有偏差的值。爲了儘量減少偏差的影響,須要求解一條直線使全部偏差的平方和最小。最小二乘法將最優問題轉化爲求函數極值問題。函數極值在數學上咱們通常會採用求導數爲0的方法。但這種作法並不適合計算機,可能求解不出來,也可能計算量太 大。spa

                            

                           圖  1.net

 

 

  梯度降低法是解決迴歸模型中最簡單且有效的方法之一.blog

二、邏輯迴歸文檔

   邏輯迴歸是分類算法,預測的結果是離散的分類。例如這封郵件是不是垃圾郵件,用戶是否會點擊此廣告。get

   實現:在線性迴歸的基礎上加一個Sigmoid函數,經結果轉化爲[0,1]之間的機率(近似理解數值越大,越接近1;數值越小,越接近0),對於判斷是不是垃圾郵件,當機率大於0.5判斷是,小於小於0.5則不是。數學

                          

                          圖  2it

   假設咱們有一組腫瘤患者的數據,如圖2。這些患者的腫瘤中有些是良性的(圖中的藍色點),有些是惡性的(圖中的紅色點)。這裏腫瘤的紅藍色能夠被稱做數據的 「標籤」。同時每一個數據包括兩個「特徵」:患者的年齡與腫瘤的大小。咱們將這兩個特徵與標籤映射到這個二維空間上,造成了我上圖的數據。效率

  根據紅藍點咱們訓練出了一個邏輯迴歸模型,也就是圖中的分類線。這時,根據綠點出如今分類線的左側,所以咱們判斷它的標籤應該是紅色,也就是說屬於惡性腫瘤。

  邏輯迴歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯迴歸,不過那樣的模型在處理數據量較大的時候效率會很低),這意味着當兩類之 間的界線不是線性時,邏輯迴歸的表達能力就不足

 

參考文檔:http://www.javashuo.com/article/p-tiainogz-eh.html

相關文章
相關標籤/搜索