線性模型函數
線性模型試圖學得一個經過屬性的線性組合來進行預測的函數。形如:學習
一、線性迴歸spa
二、多分類學習3d
三、邏輯迴歸(LR)blog
四、類別不均衡問題變量
1、線性迴歸方法
講解線性迴歸以前,先要了解迴歸和分類的區別,簡單來講,迴歸要作的就是一個連續的預測值,分類是一個離散的預測值。線性迴歸試圖學的一個線性模型以儘量準確地預測。im
輸入的屬性值爲只有一個,則函數爲F(x)= w*x + b,其中f(x)約等於真實值y,爲何是約等於?d3
看一個例子:數據
其中,藍色星星爲給定的數據,紅色線爲擬合後求出的線性方程,咱們能夠發現,咱們要作的是使全部點到這條直線的距離和最短,以此來構造損失函數進行迭代求最優解。因此線性只是擬合了數據的分佈趨勢,並非真正預測出實際值。這就是爲何是約等於。
那麼如何來肯定方程中的W和b?咱們使用均方偏差來構造損失函數,,均方偏差的幾何意義對應了經常使用的歐幾里得距離。基於均方偏差最小化來進行模型求解的方法稱爲最小二乘法。在線性迴歸中,最小二乘法就是試圖找到一條直線,使得全部樣本到直線上的歐式距離之和最小。
求解W和b的過程稱爲線性迴歸模型的最小二乘法「參數估計」。咱們將損失函數分別對W和b求偏導,而後令偏導等於0,進行求解。
現實中常遇到多分類學習任務,咱們使用一些基本策略的,利用二分類學習器來解決多分類問題(OVO,OVR,MVM)。
一、OvO
二、OvR
一個例子:
三、MvM
爲解決上述斷定結果相同的問題,提出MVM拆分策略。
2、邏輯迴歸
上節介紹了使用線性模型進行迴歸學習,但若要作分類任務怎麼辦?咱們能夠模擬預測值逼近y的衍生物,好比,假設咱們認爲輸出的y值是指在指數尺度上的變換,那麼咱們的線性函數應爲:ln(y) = wx+b,但實質上已經是在求取輸入空間到輸出空間的非線性函數映射。這樣獲得的模型:y = g(wx+b)稱爲廣義線性模型。
同理,邏輯迴歸的實質爲用線性迴歸模型的預測結果去逼近真實標記的對數概率。運用廣義線性模型把函數值映射在0-1之間。
下面就是邏輯迴歸函數sigmod的推導過程。
3、類別不平衡問題
類別不平衡是指分類任務中不一樣類別的訓練樣例數目差異很大的狀況。解決類別不平衡問題的方法是「再縮放」。
一、下采樣
直接對訓練集裏的負樣例進行下采樣,即取出一些負樣例,是正負平衡。
二、上採樣
經過訓練集的正樣例進行插值產生額外的正樣例。若是簡單地對初始正樣例進行重複,會致使過擬合。