統計學習方法筆記——1、統計學習(機器學習)基礎知識(上)

1.1 統計學習

統計學習也稱統計機器學習算法

主要特色:

  1. 以計算機及網絡爲平臺,創建在計算機及網絡之上
  2. 以數據爲研究對象,是數據驅動的學科
  3. 統計學習的目的是對數據進行預測和分析
  4. 統計學習以方法爲中心,統計學習方法構建模型並應用模型進行預測和分析
  5. 統計學習是機率論、統計學、信息論、計算理論、最優化理論及計算機科學等多個領域的交叉學科

統計學習的對象是數據,從數據出發,提取數據特徵,抽象出數據的模型,發現數據中的知識,又回到對數據的分析和預測中去。(數據包括各類數字、文字、圖像、視頻、音頻數據以及它們的組合)網絡

統計學習關於數據的基本假設是同類數據具備必定的統計規律性(統計學習的前提)機器學習

目的:

用於對數據進行預測與分析,特別是對未知新數據進行預測與分析。對數據進行預測和分析是經過構建機率統計模型實現的。統計學習總的目的是考慮學習什麼樣的模型和如何學習模型,以使模型能對數據進行準確的預測與分析,同時儘量提升學習效率函數

方法:

統計學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成,這裏主要討論監督學習post

統計學習三要素:

模型(model)、策略(strategy)和算法(algorithm)學習

實現步驟:

  1. 獲得一個有限的訓練數據集合
  2. 肯定包含全部可能的模型的假設空間,即學習模型的集合
  3. 肯定模型選擇的準則,即學習的策略
  4. 實現求解最優模型的算法,即學習的算法
  5. 經過學習方法選擇最優模型
  6. 利用學習的最優模型對新數據進行預測分析

1.2 監督學習

監督學習(supervised learning)的任務是學習一個模型,使模型可以對任意給定的輸入,對其相應的輸出作出一個好的預測測試

1.2.1 基本概念

1. 輸入空間、特徵空間與輸出空間

在監督學習中,將輸入輸出全部可能取值的集合分別稱爲輸入空間輸出空間。輸入輸出空間能夠是有限元素的集合,也能夠是整個歐式空間;輸入空間和輸出空間能夠是同一個空間,也能夠是不一樣的空間,但一般輸出空間遠小於輸入空間。
每各具體的輸入是一個實例(instance),一般由特徵向量表示。這時,全部特徵向量存在的空間稱爲特徵空間
輸入實例\(x​\)的特徵向量
\[ x = \left( \begin{matrix} x^{(1)} ,& x^{(2)} ,& \cdots ,& x^{(m)} \\ \end{matrix} \right)^{T} \]
訓練集一般表示爲
\[ T = \left\{ \begin{matrix} (x_1,y_1),&(x_2,y_2),& \cdots ,& (x_N,y_N) \end{matrix} \right\} \]
測試數據也由相對應的輸入與輸出對組成,輸入與輸出對又稱爲樣本(sample)或樣本點。
根據輸入輸出變量的不一樣類型,對預測任務給予不一樣的名稱:優化

  1. 迴歸問題:輸入與輸出變量均爲連續變量
  2. 分類問題:輸出變量爲有限個離散變量
  3. 標註問題:輸入與輸出變量均爲變量序列

2. 聯合機率分佈

監督學習假設輸入與輸出的隨機變量\(X\)\(Y\)遵循聯合機率分佈\(P(X,Y)\)\(P(X,Y)\)表示分佈函數或者分佈密度函數spa

3.假設空間

由輸入空間到輸出空間的映射的集合稱爲假設空間。假設空間的肯定意味着學習範圍的肯定。code

監督學習的模型能夠是機率模型或非機率模型,由條件機率分佈\(P(Y|X)\)或決策函數(decision function)\(Y = f(x)\)表示。

1.2.2問題的形式化

監督學習問題

監督學習分爲學習和預測兩個過程,由學習系統與預測系統完成。

1.3 統計學習三要素

統計學習方法都是由模型、策略和算法構成的,即統計學習方法由三要素構成,能夠簡單地表示爲

方法=模型+策略+算法

1.3.1 模型

統計學習首要考慮的問題事學習什麼樣的模型。在監督學習過程當中,模型就是索要學習的條件機率分佈或決策函數。模型的假設空間(hypothesis space)包含全部可能的條件機率分佈或決策函數。

1.3.2 策略

獲取模型的假設空間後,接着須要考慮的是按照什麼樣的準則學習或選擇最優的模型,統計學習的目的在於從假設空間中選取最優模型。
首先引入隨時函數與風險評估函數的概念。損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。

1. 損失函數和風險函數

監督學習問題是在假設空間 \(\mathcal { F }​\) 中選取模型 \(f​\) 做爲決策函數,對於給定的輸入 \(X​\) ,由 \(f(X)​\) 給出的相應的輸出 \(Y​\) ,這個輸出的預測值 \(f(X)​\) 與真實值 \(Y​\) 可能一致也可能不一致,用一個損失函數(loss function)或代價函數(cost function)來度量預測錯誤的程度。損失函數是 \(f(X)​\)\(Y​\) 的非負實值記錄,記做 \(L(Y,f(X))​\)

統計學習經常使用的損失函數有如下幾種:

(1)0-1損失函數(0-1 loss function)
\[ L(Y,f(X))= \begin{cases} 1,\quad &Y\neq f(X)\\ 0,\quad &Y=f(X) \end{cases} \tag{1.1} \]

(2)平方損失函數(quadratic loss function)
\[ L(Y,f(X))=(Y-f(X))^2 \tag{1.2} \]
(3)絕對損失函數(absolute loss function)
\[ L(Y,f(X))=|Y-f(X)| \tag{1.3} \]
(4)對數損失函數(logarithmic loss function)或對數似然損失函數(loglikelihood loss function)
\[ L(Y,P(Y|X))=-logP(Y|X) \tag{1.4} \]
損失函數越小,模型就越好,因爲模型的輸入、輸出 \((X,Y)\) 是隨機變量,遵循聯合分佈 \(P(X,Y)​\) ,因此損失函數的指望是
\[ R_{exp}(f)=E_{P}[L(Y,f(X))]=\int_{\mathcal{x}\times \mathcal{y}}L(y,f(x))P(x,y)dxdy \tag{1.5} \]
這是理論上模型 \(f(X)\) 關於聯合分佈 \(P(X,Y)\)平均意義下的損失,稱爲風險函數(risk function)或指望損失(expected loss)。

學習的目標就是選擇指望風險最小的模型。

因爲聯合分佈\(P(X,Y)​\)是未知的,\(R_{exp}(f)​\)不能直接計算。而實際上,若是知道聯合分佈\(P(X,Y)​\),能夠直接求出條件機率分佈\(P(Y|X)​\),也就不須要學習了。這樣一來,一方面根據指望風險最小學習模型要用到聯合分佈,另外一方面聯合分佈又是未知的,因此監督學習就成爲一個病態的問題(ill-formed problem)。

\(R_{emp}\)\(f(X)\)關於訓練集的平均損失,稱爲經驗風險(empirical risk)或經驗損失(empirical loss)。
\[ R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) \tag{1.6} \]
指望風險是模型關於聯合分佈的指望損失,經驗風險是模型關於訓練樣本集的平均損失。根據大數定律,當樣本容量N趨於無窮時,經驗風險區域指望風險,因此咱們會很天然的想到用經驗風險估計指望風險。因爲現實訓練中樣本數量有限,這一方法經常不理想,須要對經驗風險進行必定的矯正,這就關係到監督學習的兩個基本策略:經驗風險最小化結構風險最小化

2.經驗風險最小化與結構風險最小化

經驗風險最小化(empirical risk minimization, ERM)的策略認爲,經驗風險最小的模型是最優的模型。根據這一策略,按照經驗風險最小化求最優模型就是求解最優化問題:
\[ \min_{f\in \mathcal{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_i)) \tag{1.7} \]
例子:

極大似然估計(maximum likelihood estimation)。當模型是條件機率分佈,損失函數是對數損失函數時,經驗風險最小化就等價於極大似然估計。

當樣本容量很小時,經驗風險最小化學習效果就未必很好,會產生過擬合(over-fitting)現象。

結構風險最小化(structural risk minimization,SRM)是爲了防止過擬合而提出來的策略。結構風險最小化等價於正則化(regularization)。結構風險在經驗風險上加上表示模型複雜度的正則化項(regularizer)或罰項(penalty term)。在假設空間、損失函數以及訓練數據集正確的狀況下,結構風險的定義爲:
\[ R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) \tag{1.8} \]
其中\(J(f)\)爲模型的複雜度,是定義在假設空間\(\mathcal{F}\)上的泛函。\(\lambda \geq 0​\)是係數,用以權衡經驗風險和模型複雜度。

例子:

​ 貝葉斯結構估計中的最大後驗機率估計(maximum posterior probability estimation,MAP)。當模型是條件機率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗機率表示是,結構風險最小化就等價於最大後驗機率估計。

1.3.3 算法

算法是指學習模型的具體計算方法,用於求解最優化模型。

相關文章
相關標籤/搜索