《python機器學習—預測分析核心算法》:懲罰迴歸算法與集成方法基本特性

參見原書 1.1-1.4節算法

1、懲罰線性迴歸模型機器學習

基本特性:學習

1.訓練時間快,使用訓練好的模型進行預測的時間也快
2.應用於高速交易、互聯網廣告的植入等
3.解決迴歸、分類問題spa

最重要的特性:
能明確指出,哪一個變量對預測結果最重要部署

普通最小二乘法(ordinary least squares,OLS)->懲罰迴歸方法
(OLS主要問題:過擬合)ast

懲罰迴歸方法:使自由度與數據規模、問題的複雜度相匹配變量

核心概念:
1.特徵工程/特徵提取
選擇哪些變量用於對結果的預測隨機數

2.自由度
統計學名詞,當以樣本的統計量估計整體的參數時,樣本中獨立或能自由變化的自變量的個數
如,一條直線的自由度爲2,即須要2個獨立的參數才能肯定惟一的一條直線
表示方式:與Y軸的交點與斜率互聯網

利用2點肯定自由度爲2的一條直線,可信度並不高方法

2、集成方法
構建多個不一樣的預測模型(基學習器),而後將其輸出作某種組合做爲最終的輸出

某些機器學習算法輸出結果不穩定->集成方法

一般,將二元決策樹做爲基學習器
如,x<5?(y=2):(y=1)
Q:判斷值5如何產生?輸出值y=1,y=2如何產生?

A:基於輸入數據的二元決策樹的訓練

關鍵在於:如何產生大量的獨立預測模型
一種方法 投票(自舉集成方法boosting aggregating):先對訓練數據隨機取樣,基於隨機數據子集進行訓練

肯定哪些特徵做爲預測模型的輸入?
試錯法,屢次迭代

早期階段,特徵過程階段:
利用懲罰線性迴歸模型訓練,提供基本參考:哪些變量是重要的

核心概念:
1.基學習器
單個預測模型

2.問題的複雜度
數據科學家的任務,如何平衡問題的複雜度、預測模型的複雜度和數據集規模,以得到一個最佳的可部署模型

數據集的規模一般是自由度的倍數關係
由於數據集的規模固定,須要調整模型的自由度

相關文章
相關標籤/搜索