參見原書 1.1-1.4節算法
1、懲罰線性迴歸模型機器學習
基本特性:學習
1.訓練時間快,使用訓練好的模型進行預測的時間也快
2.應用於高速交易、互聯網廣告的植入等
3.解決迴歸、分類問題spa
最重要的特性:
能明確指出,哪一個變量對預測結果最重要部署
普通最小二乘法(ordinary least squares,OLS)->懲罰迴歸方法
(OLS主要問題:過擬合)ast
懲罰迴歸方法:使自由度與數據規模、問題的複雜度相匹配變量
核心概念:
1.特徵工程/特徵提取
選擇哪些變量用於對結果的預測隨機數
2.自由度
統計學名詞,當以樣本的統計量估計整體的參數時,樣本中獨立或能自由變化的自變量的個數
如,一條直線的自由度爲2,即須要2個獨立的參數才能肯定惟一的一條直線
表示方式:與Y軸的交點與斜率互聯網
利用2點肯定自由度爲2的一條直線,可信度並不高方法
2、集成方法
構建多個不一樣的預測模型(基學習器),而後將其輸出作某種組合做爲最終的輸出
某些機器學習算法輸出結果不穩定->集成方法
一般,將二元決策樹做爲基學習器
如,x<5?(y=2):(y=1)
Q:判斷值5如何產生?輸出值y=1,y=2如何產生?
A:基於輸入數據的二元決策樹的訓練
關鍵在於:如何產生大量的獨立預測模型
一種方法 投票(自舉集成方法boosting aggregating):先對訓練數據隨機取樣,基於隨機數據子集進行訓練
肯定哪些特徵做爲預測模型的輸入?
試錯法,屢次迭代
早期階段,特徵過程階段:
利用懲罰線性迴歸模型訓練,提供基本參考:哪些變量是重要的
核心概念:
1.基學習器
單個預測模型
2.問題的複雜度
數據科學家的任務,如何平衡問題的複雜度、預測模型的複雜度和數據集規模,以得到一個最佳的可部署模型
數據集的規模一般是自由度的倍數關係
由於數據集的規模固定,須要調整模型的自由度