例如線性迴歸,就是認爲預測變量y和特徵X之間存在線性關心,老掉牙的例子就是房價和地區收入,人口密度等等的線性關係
線性迴歸的數學假設有兩個部分:
1. y的預測值是數據特徵的線性變換。這裏的參數是一組係數。而y的係數和數據特徵的線性組合。
2.y的預測值和實際值之間存在一個偏差,這個偏差是符合正太分佈的算法
參數求解每一個模型都不同,通常通用的就是SGD和各類變種
還以上面的線性迴歸爲例,求解的參數就是y=Wx中的W機器學習
評價模型的效果好很差,均方偏差,logloss等等
上面的線型模型由於假設預測值和實際值的偏差是符合正太分佈,因此通常用均方偏差學習
第一步抽象很重要,第二步做爲普通人主要是使用現成的算法進行參數求解,第三步每每已經在實際的生產環境中肯定了模型的評價標準
通常的經驗是在用一個模型對數據進行訓練的時候,若是訓練集上欠擬合,多是模型的表徵能力不行對應;若是在測試集上過擬合,那可能就是模型的表徵能力太強,噪聲都被學習了。至於模型的迭代和改進這又是另外一個問題了。測試