《python機器學習—預測分析核心算法》：懲罰迴歸算法與集成方法基本特性

時間 2020-05-20

標籤 python 機器學習預測分析核心算法懲罰迴歸集成方法基本特性欄目 Python 简体版

原文原文鏈接

參見原書 1.1-1.4節算法

1、懲罰線性迴歸模型機器學習

基本特性：學習

1.訓練時間快，使用訓練好的模型進行預測的時間也快
2.應用於高速交易、互聯網廣告的植入等
3.解決迴歸、分類問題spa

最重要的特性：
能明確指出，哪一個變量對預測結果最重要部署

普通最小二乘法(ordinary least squares,OLS)->懲罰迴歸方法
(OLS主要問題：過擬合)ast

懲罰迴歸方法：使自由度與數據規模、問題的複雜度相匹配變量

核心概念：
1.特徵工程/特徵提取
選擇哪些變量用於對結果的預測隨機數

2.自由度
統計學名詞，當以樣本的統計量估計整體的參數時，樣本中獨立或能自由變化的自變量的個數
如，一條直線的自由度爲2，即須要2個獨立的參數才能肯定惟一的一條直線
表示方式：與Y軸的交點與斜率互聯網

利用2點肯定自由度爲2的一條直線，可信度並不高方法

2、集成方法
構建多個不一樣的預測模型(基學習器)，而後將其輸出作某種組合做爲最終的輸出

某些機器學習算法輸出結果不穩定->集成方法

一般，將二元決策樹做爲基學習器
如，x<5?(y=2):(y=1)
Q：判斷值5如何產生？輸出值y=1,y=2如何產生？

A：基於輸入數據的二元決策樹的訓練

關鍵在於：如何產生大量的獨立預測模型
一種方法投票(自舉集成方法boosting aggregating)：先對訓練數據隨機取樣，基於隨機數據子集進行訓練

肯定哪些特徵做爲預測模型的輸入？
試錯法，屢次迭代

早期階段，特徵過程階段：
利用懲罰線性迴歸模型訓練，提供基本參考：哪些變量是重要的

核心概念：
1.基學習器
單個預測模型

2.問題的複雜度
數據科學家的任務，如何平衡問題的複雜度、預測模型的複雜度和數據集規模，以得到一個最佳的可部署模型

數據集的規模一般是自由度的倍數關係
由於數據集的規模固定，須要調整模型的自由度

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。