《統計學習方法》的讀書筆記

時間 2019-11-17

標籤統計學習方法讀書筆記简体版

原文原文鏈接

全書總評

書本印刷質量：4 星。印刷清楚，排版合適，錯誤不多。
著做編寫質量：4 星。自學機器學習的必備。
- 優勢
  - 全書一直圍繞着統計學習中的有監督學習描述，內容不深，基本算法都有所介紹；
  - 內容的組織是從抽象到具體的思惟模式，比國外的教材易於理解；
  - 是自學統計學習和機器學習的推薦用書。
- 缺點
  - 基礎部分講解缺乏理論，學完後沒法理解，不利用學以至用。例如：感知器的損失函數，應該是統計學習的核心思想，那麼損失函數在整個算法中的位置，以及如何選擇損失函數都須要說明清楚，纔可以指導後面各類其餘機器學習方法的理解。
  - 使用的方法沒有導入的緣由和出處，學習過程當中會產生比較大的跳躍感，延續性不足。例如：隨機梯度降低法，只是說明用於神經網絡的優化須要用隨機梯度降低，而實際上隨機梯度降低是爲了知足在線學習的須要，若是是批量學習能夠直接使用梯度學習算法實現。
- 總結：瑕不掩瑜，建議結合「西瓜書」 [周志華，2018] 一塊兒看。
筆記目的：記錄重點，方便回憶。

C01. 統計學習方法概論

這一章都是概念和結論，若是讀者可以透過概念就明白裏面實際操做的內容，那就能夠快速瀏覽此書，不然準備紙和筆認真精讀方能收穫。
後面的各章內容相對獨立，讀者既能夠連續學習，也能夠僅選擇本身感興趣的內容。

統計學習

統計學習導言

統計學習 (statistical learning): 計算機基於數據構建機率統計模型，並運用模型對數據進行預測與分析的一門學科。
- 所以統計學習也稱爲統計機器學習 (statistical machine learning).
統計學習的主要特色
- 理論基礎
  - 數學基礎：微積分、線性代數、機率論、統計學、計算理論、最優化理論
  - 其餘基礎：信息論、計算機科學及應用相關的科學等多個領域的交叉學科
  - 在發展中造成本身獨立的理論體系與方法論。
- 應用基礎：計算機及網絡；
- 研究對象：數據，是數據驅動的學科；
- 研究目的：對數據進行分類和預測；
- 研究手段：經過統計學習方法構建模型，並應用模型進行分類和預測；

統計學習的對象

統計學習的對象是數據 (data)
- 從數據出發，提取數據的「特徵」，抽象出數據的「模型」，發現數據中的「知識」，又回到對數據的「分類」與「預測」中。
- 數據的基本假設：同類數據具備必定的統計規律性，因此能夠用機率統計方法加以處理。
- 數據分類有「連續型」和「離散型」兩種，本書主要關注的是「離散型」數據。

統計學習的目的

模型：學習什麼樣的模型
策略：如何學習模型 → 使模型可以對數據進行準確地分類和預測
算法：如何提升模型的學習效率

統計學習的方法

統計學習的方法分類
- 有監督學習 (supervised learning) （全書重點）
  - 從給定的、有限的、用於學習的訓練數據 (training data) 集合出發；
    - 假設數據是獨立同分布產生的；
  - 假設要學習的模型屬於某個函數的集合，稱爲假設空間 (hypothesis space);
  - 基於某個評價標準 (evaluation criterion), 從假設空間中選取一個最優的模型
    - 使模型在給定的評價準則下，對已知訓練數據及未知測試數據 (test data) 都有最優的預測；
  - 最優模型的選取都由算法實現。
- 無監督學習 (unsupervised learning):
- 半監督學習 (semi-supervised learning):
- 強化學習 (reinforcement learning):
統計學習方法的三個要素
- 模型 (model): 模型的假設空間；
- 策略 (strategy): 模型選擇的準則；
- 算法 (algorithm): 模型學習的算法。
實現統計學習方法的步驟
- 獲得一個有限的、用於訓練的數據集合；
- 模型的集合：肯定包含全部可能的模型的假設空間；
- 學習的策略：肯定模型選擇的準則；
- 學習的算法：肯定求解最優模型的算法；
- 經過學習的方式選擇出最優模型；
- 利用學習的最優模型對新數據進行分類或預測。
統計學習中的有監督學習根據「解決的問題」主要包括
- 分類問題：判別模型，處理離散數據
- 預測問題：迴歸模型，處理連續數據
- 標註問題：既是分類問題的推廣，又是預測問題的簡化。

統計學習的研究

統計學習方法 (statistical learning method): 開發新的學習方法；
統計學習理論 (statistical learning theory): 探求統計學習方法的有效性與效率，以及統計學習的基本理論問題；
統計學習應用 (application of statistical learning): 將統計學習方法應用到實際問題中去，解決實際問題。

統計學習的重要性

是處理海量數據的有效方法；
是計算機智能化的有效手段；
是計算機科學發展的重要組成。

監督學習

監督學習的任務：是學習一個模型，使模型可以對任意給定的輸入，及其相應的輸出作出一個好的預測

基本概念

輸入空間：輸入數據全部可能取值的集合；集合中元素的個數能夠有限，也能夠是整個空間；
輸出空間：輸出數據全部可能取值的集合；集合中元素的個數能夠有限，也能夠是整個空間；
假設空間：由輸入空間到輸出空間的映射的集合，便可供選擇的模型構成的空間；
特徵空間：全部特徵向量存在的空間。
- 每一個具體的輸入是一個實例 (instance), 一般由特徵向量 (feature vector) 表示。
統計學習中的有監督學習根據「輸入變量」和「輸出變量」的不一樣主要包括
- 分類問題：輸出變量爲有限個離散變量的預測問題；
- 迴歸問題：輸入變量與輸出變量均爲連續變量；
- 標註問題：輸入變量與輸出變量均爲變量序列的預測問題；
聯合機率分佈：輸入變量與輸出變量遵循聯合分佈；

問題的形式化描述

在學習過程當中，學習系統（也就是學習算法）試圖經過給定的訓練數據集合中的樣本帶來的信息來學習獲得模型。

統計學習三個要素

統計學習方法 = 模型 + 策略 + 算法

模型

主要問題：學習什麼樣的模型？
模型的假設空間：包含全部可能的條件機率分佈或決策函數，即由一個參數向量決定的函數族，也稱爲參數空間 (parameter space)。
模型分類
- 非機率模型：由決策函數表示的模型；
- 機率模型：由條件機率表示的模型；

策略

主要問題：按照什麼樣的準則，學習獲得最優的模型，或者從假設空間中選擇最優的模型。
基本概念
- 損失函數 (loss function) 或代價函數 (cost function): 度量模型一次預測的好壞；
- 風險函數 (risk function) 或指望損失 (expected loss): 度量平均意義下模型預測的好壞。
- 經驗風險 (empirical risk) 或經驗損失 (empirical loss): 表示模型與訓練數據的破例程度，即模型訓練樣本集的平均損失，當樣本容量趨於無窮時，經驗風險逼近指望風險；
- 結構風險 (structural risk): 表示模型先驗知識，例如：模型複雜度的正則化項 (regularizer) 或懲罰項 (penalty term)。
經常使用的損失函數
- 0-1 損失函數
- 平方損失函數
- 絕對值損失函數
- 對數損失函數或對數似然損失函數
學習目標
- 理想狀態：就是選擇指望風險或指望損失最小的模型，但願能夠提供無限的數據訓練；
- 現實狀態：就是選擇經驗風險或經驗損失最小的模型，由於只能提供有限的數據訓練；
經驗風險矯正：當樣本容量太小時，容易出現「過擬合」問題，因此須要對經驗風險進行矯正，經驗風險最小化 + 結構風險最小化
- 經驗風險最小化 (empirical risk minimization, ERM): 極大似然估計
- 結構風險最小化 (structural risk minimization, SRM): 最大後驗估計

算法

統計學習是基於訓練數據集，根據學習策略，從假設空間中選擇最優模型，最後須要考慮用什麼樣的計算方法求解最優模型。
算法即計算方法。統計學習的算法就轉化爲求解最優化問題的算法。
- 有顯式的解析解的最優化問題；
- 無顯式的解析解的最優化問題，須要用數值計算的方法求解。
  - 如何保證找到全局最優解；
  - 如何保證求解的過程高效。

模型的評估與選擇

1.4~1.7, 與模型選擇有關的問題。
1.8~1.10, 與模型應用有關的問題。

模型評估

學習方法評估的標準
- 基於損失函數的模型的訓練偏差 (training error): 用來評估一個學習問題是否容易學習
- 基於損失函數的模型的測試偏差 (test error): 用來評估一個模型是否具有更有效的預測
泛化能力 (generalization ability): 學習方法對未知數據的預測能力

模型選擇

過擬合 (over-fitting): 學習時選擇的模型所包含的參數過多，以致於模型對已知數據預測較好，未知數據預測較差的問題
模型選擇的經常使用方法
- 正則化
- 交叉驗證

正則化與交叉驗證

正則化

正則化 (regularization): 結構風險最小化策略的實現，是在經驗風險上加一個正則化項或懲罰項。
- 正則化項通常是模型複雜度的單調遞增函數。
  - 複雜度定義能夠參考 Kolmogorov 複雜性理論 (complexity theory) [Haykin, 2011] P48
- Occam 剃刀原理：應用於模型選擇時符合正則化的想法，即全部可以解釋數據的模型中，複雜度越小越好。
- Bayes 估計：正則化項對應於模型的先驗機率。數據較少時先驗機率就能夠抑制數據中噪聲的干擾，防止出現過擬合問題。數據不少時，先驗機率就讓位於數據對模型的解釋。
- 正則化是優化學習算法，調整目標函數，增長先驗知識的重要手段，是機器學習的核心之一。
  - 簡單瞭解：[周志華，2018] P133
  - 深刻理解：[Haykin, 2011] C07

交叉驗證

交叉驗證 (cross validation)
- 在數據充足時，隨機地將數據切分紅三個部分：訓練集、驗證集和測試集。
  - 選擇對驗證集有最小預測偏差的模型。
- 訓練集 (training set): 用來訓練模型；
- 驗證集 (validation set): 用來選擇模型；
- 測試集 (test set): 用來評估模型。
交叉驗證的經常使用方法
- 簡單交叉驗證：隨機地將數據分紅兩個部分，70% 的數據爲訓練集，30% 的數據爲測試集，選擇測試偏差最小的模型；
- S 折交叉驗證
  - 隨機地將數據分紅 S 個互不相交的大小相同的部分
  - 而後利用 S-1 個部分的數據訓練，1 個子集測試模型，
  - 再將這一個過程對全部可能的選擇重複進行，
  - 最後選擇 S 次評測中平均測試偏差最小的模型。
- 留一交叉驗證：當 S=N 時採用的 S 折交叉驗證，適用於數據極度缺少的狀況下。(N 爲給定數據集的容量）

泛化能力

泛化偏差

泛化能力 (generalization ability): 是指學習方法學習到的模型對未知數據的預測能力
泛化偏差 (generalization error): 是指學到的模型對未知數據預測產生的偏差，反映了學習方法的泛化能力。

泛化偏差的上界

泛化偏差的上界 (generalization error bound): 泛化偏差的機率上界，經過比較兩種學習方法的泛化偏差機率上界來肯定優劣
泛化偏差上界的性質
- 是樣本容量的函數，當樣本容量增長時，泛化上界趨向於 0;
- 是假設空間的函數，當假設空間容量增長時，泛化偏差上界就會變大，表示模型就更加難學。
泛化偏差上界定理及證實（建議跳過）

生成模型與判別模型

生成模型 (generative model): 模型表示了給定輸入 X 產生輸出 Y 的生成關係。
- 特色
  - 還原出聯合機率分佈；
  - 學習收斂速度快；
  - 樣本容量增長時，可以更好地逼近真實模型；
  - 存在隱變量時，仍然可使用。
- 應用：樸素 Bayes 方法和隱馬爾可夫模型 (Hidden Markov Model, HMM);
- 注：生成模型是比較難理解的概念，HMM 是理解生成模型比較好的途徑，若是對 HMM 感興趣能夠參考
  - 簡單瞭解：[周志華，2018] P320
  - 深刻理解：[Rabiner, 1989]
判別模型 (discriminative model): 由數據直接學習決策函數或者條件機率分佈做爲預測的模型
- 特色
  - 直接學習獲得條件機率分佈或者決策函數；
  - 直接面對預測，學習的準確率更高；
  - 基於參數是直接學習獲得的，所以能夠對數據進行各類程度上的抽象、定義和使用特徵，簡化學習問題。
- 應用：k 近鄰法、感知機、決策樹、Logistic 迴歸模型、最大熵模型、支持向量機、提高方法和條件隨機場等

分類問題

分類器 (classifier): 監督學習從數據中學習獲得的分類模型或分類決策函數。
分類 (classification): 利用分類器對新輸入的數據進行輸出的預測。
解決分類問題的兩個過程
- 學習過程：根據已知的訓練數據集利用有效的「學習方法」獲得一個分類器；
- 分類過程：利用學習獲得的分類器對新輸入的實例進行分類。
評價分類器性能的指標：分類準確率 (accuracy), 即對於給定的測試數據集，分類器正確分類的樣本數與總樣本數之比。
- 二類分類問題經常使用的評價指標：精確率 (precision) 與召回率 (recall)。
解決分類問題的經常使用方法：k 近鄰法、感知機、樸素 Bayes 法，決策樹、決策列表、Logistc 迴歸模型、支持向量機、提高方法等

標註問題

標註問題：是分類問題的推廣，也是更復雜的結構預測問題的簡單形式。
- 輸入是一個觀測序列；
- 輸出是一個標記序列或狀態序列。
- 目標是經過學習獲得可以對觀測序列給出標記序列做爲預測的模型。
解決標註問題的兩個過程：學習過程和標註過程
評價標註問題的指標：準確率、精確率和召回率。
解決標註問題的經常使用方法：隱 Markov 模型和條件隨機場。

迴歸問題

迴歸 (regression): 用於預測輸入變量（自變量）和輸出變量（因變量）之間的關係。
迴歸模型：表示從輸入變量到輸出變量之間的映射關係的函數。
- 等價於：函數擬合。
解決迴歸問題的兩個過程：學習過程和預測過程。
迴歸問題的分類
- 按輸入變量的個數：一元迴歸和多元迴歸；
- 按輸入變量和輸出變量之間的關係：線性迴歸和非線性迴歸。
迴歸學習最經常使用的損失函數：平方損失函數，求解平方損失函數能夠用最小二乘法。

C02. 感知機

模型
- 感知機，是根據輸入實例的特徵向量對其進行二類分類的線性分類模型，屬於判別模型；
- 模型參數包括：權值或權值向量，偏置。
- 模型對應於輸入空間（特徵空間）中的分離超平面；
策略
- 假設：感知機學習的訓練數據集是線性可分的；
- 目標：求得一個可以將訓練集正實例點和負實例點徹底正確分開的分離超平面；
- 策略：即定義（經驗）損失函數，並將損失函數極小化；
  - 損失函數定義爲：誤分類點的總數，不易優化；
  - 損失函數定義爲：誤分類到分離超平面的總距離；
算法
- 感知機學習算法是基於偏差 - 修正的學習思想，是由誤分類驅動的；
- 學習算法的優化方法
  - 批量學習能夠基於進行優化
    - 一階：最速降低法或梯度降低法；
    - 二階：牛頓法、共軛梯度法等等
  - 在線學習：基於隨機梯度降低法的對損失函數進行最優化 [Goodfellow, 2017] P95, P180
    - 原始形式：算法簡單且易於實現。先任意選取一個超平面，而後隨機選擇一個誤分類點使其用梯度降低法極小化目標函數
      - 例 2.1（比較簡單，能夠了解）
      - 定理 2.1（過於簡略，建議跳過）
    - 對偶形式 （沒看出與原始形式有何區別，也沒從別的書上看到過這種說明方式，建議跳過）
- 當訓練數據集線性可分時，感知機學習算法是收斂的，且有無窮多個解。
學習總結
- 感知機是神經網絡的基礎，本章只有單個神經元模型，深刻學習參考 [Haykin, 2011]
- 神經網絡是深度學習的基礎，深度學習參考 [Goodfellow, 2017]
- 距離度量是幾何的概念，理論可參考 [Duda, 2003] P154
- 學習算法的優化是最優化理論，基本優化方法可參考 [Hyvarinen, 2007] P42

C03. k 近鄰法

k 近鄰法 (k-nearest neighbor, k-NN) 是一個基本且簡單的方法，用於分類與迴歸。
- 輸入爲實例的特徵向量，對應於特徵空間的點；
- 輸出爲實例的類別，能夠取多個類。
基本思想
- 假設給定一個訓練數據集，其中的實例類別已經肯定；
- 對新輸入的實例分類時，根據其 k 個最近鄰的訓練實例的類別，經過多數表決等方式進行預測。
- 不具備顯式的學習過程。
- 實際上利用訓練數據集對特徵向量空間進行切分，並做爲其分類的「模型」。
k 近鄰的模型
- 對應於基於訓練數據集對特徵空間的一個劃分。
- 當訓練集、距離度量、k 值及分類決策規則肯定後，輸入實例所屬類別也惟一肯定。
k 近鄰法的三個要素
- 學習準則：距離度量，經常使用歐氏距離；（距離定義）[Duda, 2003]
- k 值的選擇：反映了近似偏差與估計偏差之間的權衡。
  - k 值越大時，近似偏差會增大，估計偏差會減少，模型也越簡單；
  - k 值越小時，近似偏差會減小，估計偏差會增大，模型也越複雜。
  - 能夠用交叉驗證的方式選擇最優 k 值。
- 分類決策規則：多數表決規則 (marjority voting rule), 等價於經驗風險最小化。
k 近鄰法的實現基於 kd 樹。（瞭解便可，實際應用中大多使用的是已經成熟的軟件包）
- kd 樹是一種便於對 k 維空間中的數據進行快速檢索的數據結構；
- kd 樹是二叉樹，表示對 k 維空間的一個劃分；
- kd 樹的每一個聖戰對應於 k 維空間劃分中的一個超矩形區域；
- 利用 kd 樹能夠省去對大部分數據點的搜索，從而減小搜索的計算量。
學習總結
- 瞭解便可，由於面對高維問題效果不好，須要考慮降維操做。[周志華，2018] P225

C04. 樸素 Bayes 法

樸素 (naive) Bayes 法：是基於 Bayes 定理與全部特徵都遵循條件獨立性假設的分類方法。
- 樸素 Bayes 法是 Bayes 分類法的一種，遵循 Bayes 定理建模。[Mitchell, 2003] P112
- 樸素 Bayes 法基於的條件獨立性假設是說用於分類的特徵在類別肯定的條件下都是條件獨立的。簡化了計算複雜度，犧牲了分類準確率。
- 樸素 Bayes 法是生成學習方法。
  - 先驗機率分佈；
  - 條件機率分佈；
  - 後驗機率分佈。後驗機率最大化準則等價於指望風險最小化準則。
  - 目標：由訓練數據學習聯合機率分佈；
- 樸素 Bayes 方法的機率參數估計方法：
  - 極大似然估計 : 機率估計經常使用的方法；
  - Bayes 估計 : 重點在於瞭解與極大似然估計的差異，才能夠正確使用。
學習總結
- 雖然不須要本身估計參數，可是對估計的理解很重要，書中的描述過於簡單，具體內容請參考 [Duda, 2003] P67
- 對於概念上的理解還能夠參考 [周志華，2018] C07

C05. 決策樹 (decision tree)

決策樹模型
- 決策樹是一種基本方法，用於分類與迴歸。
  - 本章主要討論的是分類決策樹。
- 分類決策樹模型
  - 定義：是基於特徵對實例進行分類的樹形結構。
  - 模型的組成結構
    - 結點 (node)
      - 內部結點 (internal node)
      - 葉結點 (leaf node)
    - 有向邊 (directed edge)
  - 分類決策樹能夠轉換成一個 if-then 規則的集合；
    - 決策樹的根結點到葉結點的每一條路徑構建一條規則；
    - 路徑上內部結點的特徵對應着規則的條件，而葉結點的類對應着規則的結論。
    - 重要的性質：互斥而且完備，即全覆蓋。
      - 覆蓋是指實例的特徵與路徑上的特徵一致或實例知足規則的條件。
  - 也能夠看做是定義在特徵空間與類空間上的條件機率分佈。
    - 這個條件機率分佈定義在特徵空間的一個劃分上，
    - 將特徵空間劃分爲互不相交的單元或區域，
    - 並在每一個單元定義一個類的機率分佈就構成了一個條件機率分佈。
    - 決策樹分類時，將結點的實例分到條件機率大的類中。
  - 主要優勢：可讀性強，分類速度快。
決策樹學習
- 學習目的
  - 根據給定的訓練數據集，構建一個與訓練數據擬合很好，而且複雜度小的決策樹，使之可以對實例進行正確的分類。
  - 決策樹與訓練數據的矛盾較小，同時還具備較好的泛化能力。
  - 也能夠看做由訓練數據集估計條件機率模型
    - 模型對訓練數據擬合的效果很好；
    - 模型對未知數據有很好的預測。
  - 從全部可能的決策樹中選取最優決策樹是 NP 徹底問題；
    - 現實中採用啓發式方法學習次優的決策樹。
- 學習準則：損失函數最小化。
  - 損失函數是一種正則化的極大似然函數
- 學習算法
  - 遞歸地選擇最優特徵，並根據該特徵對訓練數據進行分割，使之對各個數據集有一個最好的分類的過程。
決策樹的學習算法包括 3 個部分
- 特徵選擇
  - 特徵選擇的目的在於選取對訓練數據可以分類的特徵，提升決策樹學習的效率；
  - 特徵選擇的關鍵是其準則
    - 樣本集合 D 對特徵 A 的信息增益 最大
      - 信息增益定義爲集合 D 的經驗熵與特徵 A 在給定條件下 D 的經驗條件熵之差。
        
        熵：表示隨機變量不肯定性的度量。也稱爲經驗熵。
        
        條件熵：定義爲 X 給定條件下 Y 的條件機率分佈的熵對 X 的數學指望。也稱爲經驗條件熵。
      - 信息增益表示得知特徵 X 的信息而使得類 Y 的信息的不肯定性減小的程度。
      - 信息增益等價於訓練數據集中類與特徵的互信息。
      - 信息增益依賴於特徵，信息增益大的特徵具備更強的分類能力。
    - 樣本集合 D 對特徵 A 的信息增益比 最大
      - 爲了不信息增益對取值較多的特徵的偏重，使用信息增益比來代替；
      - 信息增益比：特徵 A 對訓練數據集 D 的信息增益與訓練數據集 D 關於特徵 A 的值的熵之比。
    - 樣本集合 D 的基尼指數 最小
- 樹的生成
  - 計算指標，再根據準則選取最優切分點，從根結點開發，遞歸地產生決策樹。
  - 經過不斷地選擇局部最優的特徵，獲得多是全局次優的結果。
- 樹的剪枝：將已經生成的樹進行簡化的過程。
  - 目的：因爲生成的決策樹存在過擬合問題，須要對它進行剪枝，以簡化學到的決策樹。
  - 剪枝的準則：極小化決策樹總體的損失函數或代價函數，等價於正則化的極大似然估計。
  - 剪枝的分類
    - 預剪枝：也叫分支中止準則。在決策樹生成過程當中，對每一個結點在劃分前先進行估計，若當前結點的劃分不能帶來決策樹泛化性能提高，則中止劃分並將當前結點標記爲葉結點；
    - 後剪枝：先從訓練集生成一棵完整的決策樹，而後自底向上地對非葉結點進行考察，若將該結點對應的子樹替換爲葉結點能帶來決策樹泛化性能提高，則將該子樹替換爲葉結點。
- 經常使用的學習算法
  - ID3: 在決策樹的各個結點上應用信息增益準則選擇特徵，遞歸地構建決策樹。至關於用極大似然法進行機率模型的選擇。
  - C4.5: 在決策樹的各個結點上應用信息增益比準則選擇特徵，遞歸地構建決策樹。
  - CART: 既可用於分類，也可用於迴歸。
    - 等價於遞歸地二分每一個特徵，將輸入空間即特徵空間劃分爲有限個單元，並在這些單元上肯定預測的機率分佈，也就是在輸入給定的條件下輸出的條件機率分佈。
    - CART 算法的兩個過程
      - 決策樹生成：基於訓練數據集生成決策樹，要儘可能大；
        
        迴歸樹生成
        
        用平方偏差最小準則求解每一個單元上的最優輸出值。
        
        迴歸樹一般稱爲最小二乘迴歸樹。
        
        分類樹生成
        
        用基尼指數選擇最優特徵，並決定該特徵的最優二值切分點。
        
        算法中止計算的條件
        
        結點中的樣本個數小於預約閾值；
        
        樣本集的基尼小於預約閾值；
      - 決策樹剪枝
        
        用驗證數據集對已經生成的樹進行剪枝，剪枝的標準爲損失函數最小，基於標準選擇最優子樹。
        
        能夠經過交叉驗證法對用於驗證的獨立數據集上的子樹序列進行測試，從中選擇最優子樹。
      - [Duda, 2003] P320, CART 做爲通用的框架，定義了 6 個問題
決策樹的預測
- 對新的數據，利用決策樹模型進行分類。
學習總結
- 算法 (5.1, 5.2, 5.6) + 例題 ( 5.1, 5.2, 5.3, 5.4 ) 經過算法和例題能夠加強理解；
- 損失函數的定義能夠進一步參考「不純度」指標 [Duda, 2003] P320, 或「純度」指標 [周志華，2018] P75
  - 「不純度」指標是求極小值，能夠跟梯度降低法等最優化理論結合。

C06. Logistic 迴歸與最大熵模型

模型
- Logistic 迴歸模型，也稱爲對數概率迴歸模型，輸入是的線性函數，輸出的是對數概率模型
  - 基於 Logistic 分佈創建的，表示條件機率的分類模型
    - Logistic 分佈是 Sigmoid 函數，定義 6.1
  - 對數概率 (log odds) 或 logit 函數
    - 一個事件的概率 (odds) 是指該事件發生的機率與該事件不發生的機率的比值。
  - 二項 Logistic 迴歸模型是二類分類模型，定義 6.2
  - 多項 Logistic 迴歸模型是多類分類模型
  - 模型參數估計
    - 極大似然估計法
- 最大熵模型
  - 基於最大熵原理推導的，表示條件機率分佈的分類模型，能夠用於二類或多類分類。
    - 最大熵原理認爲，在全部可能的機率模型（分佈）的集合中，熵最大的模型是最好的模型。
    - 準則：最大熵原理是機率模型學習或估計的一個準則。
  - 最大熵模型的學習
    - 最大熵模型的學習過程就是求解最大熵模型的過程
    - 最大熵模型的學習能夠形式化爲有約束的最優化問題（對偶問題）
      - 拉格朗日乘子參考附錄 C
  - 例 6.1, 6.2 方便理解最大熵模型的算法原理。
算法
- 學習採用極大似然估計或者正則化極大似然估計
  - 形式化爲無約束最優化問題
- 求解無約束最優化問題的算法
  - 迭代尺度法
  - 梯度降低法
  - 擬牛頓法
學習總結
- Logistic 模型與最大熵模型都屬於對數線性模型。[周志華，2018] C03
- 極大似然估計：書裏寫的比較簡單，沒有原理性的說明，推薦（[周志華，2018] P149, [Duda, 2003] P67）
- 模型學習的最優化算法：書裏寫的不太好理解。各類機器學習和模式識別的書裏面都有介紹，推薦（[周志華，2018] P403, [Hagan, 2006] C09）

C07. 支持向量機

支持向量機（Support Vector Machine， SVM）是一種二類分類模型。
- 基本模型是定義在特徵空間上的間隔最大的線性分類器
- 基本概念
  - 支持向量決定了最優分享超平面
    - 最終判別時，只須要不多的「重要」訓練樣本，大幅減小計算量。
  - 間隔（看懂數學公式就能夠理解間隔，判別在數據的維度上又增長了一個維度）
- 與其餘模型的比較
  - 與感知機的區別：間隔最大化產生最優超平面；
  - 與線性模型的區別：使用核技巧成爲非線性分類器。
- 分類
  - 線性可分支持向量機，硬間隔支持向量機。
  - 線性支持向量機，軟間隔支持向量機，是最基本的支持向量機。
  - 非線性支持向量機
- 學習
  - 學習在特徵空間進行的
  - 學習策略是間隔最大化
線性可分支持向量機 (linear support vector machine in linearly separable case)
- 條件：訓練數據線性可分；
- 學習策略：硬間隔最大化
  - 求解可以正確劃分訓練數據集而且幾何間隔最大的分離超平面
  - 對訓練數據集找到幾何間隔最大的超平面意味着以充分大的確信度對訓練數據進行分類
  - 這樣的超平面對未知原新實例有很好的分類預測能力
- 解的特徵
  - 最優解存在且惟一；（惟一性證實，建議跳過）
  - 支持向量由位於間隔邊界上的實例點組成；
線性支持向量機 (linear support vector machine)
- 條件
  - 訓練數據近似線性可分；
  - 訓練數據中存在一些特異點 (outlier)
- 學習策略：軟間隔最大化
  - 懲罰參數 C * 替代損失函數 f，表示誤判的代價；
    - hinge 損失（合頁損失函數）：保持了稀疏性
    - 指數損失
    - 對率損失：類似於對率迴歸模型
  - 目標是使間隔儘可能大，誤分類點儘可能少。
- 解的特徵
  - 權值惟一，偏置不惟一；
  - 支持向量由位於間隔邊界上的實例點、間隔邊界與分離超平面之間的實例點、分離超平面誤分一側的實例點組成；
  - 最優分享超平面由支持向量徹底決定。
非線性支持向量機 (non-linear support vector machine)
- 基本概念
  - 線性空間：知足線性性質的空間
  - 距離：是一種度量
    - 距離的集合 ⟶ 度量空間 + 線性結構 ⟶ 線性度量空間
  - 範數：表示某點到空間零點的距離
    - 範數的集合 ⟶ 賦範空間 + 線性結構 ⟶ 線性賦範空間
  - 內積空間：添加了內積運算的線性賦範空間
    - 線性賦範空間 + 內積運算 ⟶ 內積空間
  - 歐氏空間：有限維的內積空間
  - 希爾伯特空間：內積空間知足完備性，即擴展到無限維
    - 內積空間 + 完備性 ⟶ 希爾伯特空間
  - 巴拿赫空間：賦範空間知足完備性
    - 賦範空間 + 完備性 ⟶ 巴拿赫空間
- 條件：
  - 訓練數據非線性可分；
  - 經過非線性變換（核函數）將輸入空間（歐氏空間或離散集合）轉化爲某個高維特徵空間（希爾伯特空間）中的線性可分；
  - 在高維特徵空間中學習線性支持向量機。
- 學習策略：核技巧 + 軟間隔最大化
最大間隔法
- 間隔概念
  - 函數間隔：表示分類的正確性及確信度
  - 幾何間隔：規範化後的函數間隔，實例點到超平面的帶符號的距離
- 分類
  - 硬間隔最大化 (hard margin maximization)
  - 軟間隔最大化 (soft margin maximization)
- 間隔最大化的形式化
  - 求解凸二次規劃問題
    - 最優化算法
  - 正則化的合頁損失函數的最小化問題
- 求解過程
  - 原始最優化問題應用拉格朗日對偶性；
  - 經過求解對偶問題獲得原始問題的最優解。
  - 中間也能夠根據須要天然引入核函數。
核技巧 (kernel method) 通用的機器學習方法
- 應用條件
  - 非線性可分訓練數據能夠變換到線性可分特徵空間；
  - 目標函數中的內積可使用非線性函數的內積替換；
  - 非線性函數的內積可使用核函數替換；
  - 核函數使非線性問題可解。
- 經常使用的核函數
  - 線性核：對應於線性可分問題
  - 多項式核函數
  - 高斯核函數
  - Sigmoid 核函數
  - 函數組合獲得的核函數
    - 兩個核函數的線性組合仍然是核函數，k1(x,z) 和 k2(x,z) 是核函數，c1 和 c2 是任意正數，則 k(x,z)=c1k1(x,z)+c2k2(x,z) 也是核函數。
    - 兩個核函數的直積仍然是核函數，k1(x,z) 和 k2(x,z) 是核函數，則 k(x,z)=k1(x,z)k2(x,z) 也是核函數。
    - k1(x,z) 是核函數，g(z) 是任意函數，則 k(x,z)=g(z)k1(x,z)g(z) 也是核函數。
SMO 算法
- 支持向量機學習的啓發式快速算法
- 流程
  - 將原二次規劃問題分解爲只有兩個變量的二次規劃子問題；
    - 第一個變量是違反 KKT 條件最嚴重的變量；
    - 第二個變量是使目標函數增加最快的變量；
    - 目標是使兩個變量所對應樣本之間的間隔最大。
  - 對子問題進行解析分解；
  - 直到全部變量知足 KKT 條件爲止。
學習總結
- 支持向量機與神經網絡是兩大重要的機器學習算法；
- 結合周老師的書一塊兒看，對於理解支持向量機會有較大幫助。[周志華，2018] C06
- 深刻了解支持向量機的理論分析。[Haykin, 2011] C06

C08. 提高方法（集成學習）

提高方法是一種統計學習方法，也是一種提高模型學習能力和泛化能力的方法，仍是一種組合學習（集成學習）的方法，是統計學習中最有效的方法之一。html

爲何要將各類學習方法組合起來？
- 強可學習方法與弱可學習方法的等價性；
- 將各類弱可學習方法組合起來就能夠提高 (boost) 爲強可學習方法
如何將各類學習方法組合起來？
- AdaBoost 算法
  - 是一種通用的組合算法，能夠將各類分類算法進行組合。
- 提高樹
  - 以分類樹或迴歸樹爲基本分類器的提高方法（組合算法）
  - 提高樹是統計學習中性能最好的方法之一
- Bagging 算法（本章無介紹，瞭解請參考[周志華，2018] C8.3）
  - 隨機森林
AdaBoost 算法
- 模型：加法模型
  - 如何改變訓練數據的權值和機率分佈：採用「分而治之」的方法。提升那些被前一輪弱分類器錯誤分類的樣本的權值，從而保證後一輪的弱分類器在學習過程當中可以更多關注它們。
  - 如何將弱分類器組合成一個強分類器：採用「加權多數表決」的方法。加大分類偏差率小的弱分類器的權值，從而保證它們在表決中起較大的做用。
- 策略：指數損失函數極小化，即經驗風險極小化。
- 算法：前向分步算法來優化分步優化指數損失函數的極小化問題。
- 算法的訓練偏差分析
  - AdaBoost 可以在學習過程當中不斷減小訓練偏差，即減小訓練數據集上的分類偏差率。
    - AdaBoost 的訓練偏差是以指數速率降低的。定理與證實建議跳過
- 算法的優化過程分析
  - 由於學習的是加法模型，因此可以從前向後，每一步只學習一個基函數及基係數，逐步逼近優化目標函數，簡化優化的複雜度。
  - 前向分步算法與 AdaBoost 的關係：定理與證實建議跳過。
提高樹模型
- 模型：加法模型，以決策樹爲基函數
- 策略：損失函數
  - 分類問題：指數損失函數
  - 迴歸問題：平方偏差函數
  - 通常決策問題：通常損失函數
- 算法：前向分步算法
  - 梯度提高算法（GBDT）：解決離散數據的優化問題，原理參考、[Friedman, 2001]
學習總結
- 學習基礎
  - 熟悉重要的分類算法：神經網絡和支持向量機
  - 熟悉經常使用的分類算法：k 近鄰法和決策樹
- 學習目標
  - 組合各類分類算法，從而產生質量更好的學習能力和泛化能力模型
- 胡思亂想
  - 全鏈接的深度神經網絡就是理論上最完美的組合模型，問題在於維度災難帶來的計算複雜度問題。
  - 爲了解決計算複雜度問題，就須要瞭解其餘分類模型，由於其餘分類模型就是具有了先驗知識的神經網絡模型，將那些分類模型轉化爲神經網絡模型後就能夠大幅減小鏈接的數量。
  - 機率近似正確 (probably approximately correct, PAC) 來自計算學習理論，可參考[周志華，2018] C12, [Mitchell, 2003] C07
  - 集成學習 (ensemble learning) 也被稱爲多分類器系統、基於委員會的學習等，可參考[周志華，2018] C08

C09. EM 算法及推廣

學習基礎
- 機率論：指望
- 最大似然估計或極大後驗估計
- 梯度降低
EM 算法是對含有隱變量的機率模型進行極大似然估計或者極大後驗估計的迭代算法。
- E 步，求指望；利用數據和假設的初值，求得一個隱變量的條件機率分佈的指望，即「Q 函數」。（由於沒法求得條件機率分佈的具體值）
- M 步，求極值。利用「Q 函數」來求極值，這個極值能夠幫助擬合的機率分佈更加逼近真實分佈。
- Q 函數的定義（理解 Q 函數的涵義能夠更好地推廣到應用中，開始不理解也不要緊，能夠在應用中慢慢加深）
- EM 算法的推導（若是書上的沒法理解，還能夠參考本文中的其餘文獻）
  - EM 算法是收斂的，可是有可能收斂到局部最小值。
  - EM 算法能夠當作利用凸函數進行機率密度逼近；
  - 若是原機率密度函數有多個極值，初值的不一樣就可能逼近到不一樣的極值點，因此沒法保證全局最優。
- EM 算法的應用（下面的兩個應用都是重點，可是沒法從本書中徹底理解，能夠在將來的應用繼續探索）
  - 高斯混合模型
  - HMM（隱 Markov 模型） 參考 C10
- EM 算法的推廣（建議跳過，對了解 EM 算法幫助不大，只有深刻理解和研究 EM 算法才須要）
  - F 函數的極大 - 極大算法
  - 廣義 EM 算法（GEM）
學習總結
EM算法的詳細推導。[Borman, 2004], 或者Determined22的EM算法簡述及簡單示例（三個硬幣的模型）
EM算法的機率分析。[Friedman, 2001], 或者蘇劍林的梯度降低和EM算法
EM算法的深刻理解。能夠參考史春奇的Hinton和Jordan理解的EM算法

C10. 隱 Markov 模型（HMM）的算法及推廣

學習基礎
- 隨機過程：用於理解 Markov 鏈的數學含義
- EM 算法：用於計算 HMM 的學習問題
Markov 鏈的定義
- 隨機過程
  - 研究對象是隨時間演變的隨機現象。[盛驟，2015] C12
  - 設 T 是一無限實數集，對依賴於參數 t（t 屬於 T）的一族（無限多個）隨機變量稱爲隨機過程。
  - 個人理解
    - 隨機過程在任一個時刻 t, 被觀測到的狀態是隨機的，可是這個隨機狀態是由一個肯定的函數控制的。
    - 例如：有 3 塊金屬放在箱子裏面，任一個時刻 t 取出的金屬是隨機的，可是每塊金屬衰退的速度是由這塊金屬自身的函數控制的。
    - 隨機變量刻畫的是數值的隨機性（某個數出現的機率），隨機過程刻畫的是函數的隨機性（某個函數出現的機率）
- Markov 過程
  - Markov 性或無後效性：過程（或系統）在時刻 t_0 所處的狀態爲已知的條件下，過程在時刻 t>t_0 所處狀態的條件分佈與過程在時刻 t_0 以前所處的狀態無關。即在已經知道過程「如今」的條件下，其「未來」不依賴於「過去」。[盛驟，2015] C13
  - Markov 過程：具備 Markov 性的隨機過程，稱爲 Markov 過程。
- Markov 鏈
  - 時間和狀態都是離散的 Markov 過程稱爲 Markov 鏈，簡稱馬氏鏈。
  - 深刻理解可參考 [Rabiner, 1989]
- HMM
  - 關於時序的機率模型
  - 用於描述一個被觀測到的隨機序列，這個隨機序列是由不可觀測的狀態隨機序列生成的，這個狀態隨機序列是由隱藏的 Markov 鏈隨機生成的。
    - 狀態序列 Q：隱藏的 Markov 鏈隨機生成的狀態序列；
    - 觀測序列 O：每一個狀態生成一個觀測，一個狀態序列就會生成一個觀測序列。
    - 序列的每個位置均可以看做一個時刻。
HMM 的基本假設
- 齊次 Markov 假設，即假設隱藏的 Markov 鏈在任意時刻 t 的狀態只依賴於前一個時刻的狀態，而與其餘時刻的狀態及觀測無關，也與時刻 t 無關；
- 觀測獨立性假設，即假設任意時刻 t 的觀測只依賴於該時刻的 Markov 鏈的狀態，與其餘觀測與狀態無關。
HMM 的基本元素
- N，模型的狀態數；
- M，每一個狀態生成的可觀測的標誌數；
- A，轉移機率矩陣，a_{ij} 表示從狀態 i 轉移到狀態 j 的機率；
- B，觀測機率矩陣，b_{j} (k) 表示狀態 j 產生標誌 k 的機率；
- π，初始狀態分佈，π_i 表示一開始系統在狀態 i 的機率。
- HMM 參數的數學表示：λ=(A, B, π)
HMM 的三個基本問題
- 機率計算問題
  - 給定觀測序列 O 和模型參數 λ，計算基於這個模型下觀測序列出現的機率 P(O|λ) ；
- 預測問題
  - 給定觀測序列 O 和模型參數 λ，尋找可以解釋這個觀測序列的狀態序列，這個狀態序列的可能性最大；
  - 除非是退化的模型，不然不會有「正確」的狀態序列，由於每一個狀態序列都有能夠生成觀測序列；
  - 只多是依據某個優化準則，使找到的狀態序列儘量的逼近真實的狀態序列。
- 學習問題
  - 給定觀測序列 O，尋找可以解釋這個觀測序列的模型參數 λ，使得 P(O|λ) 最大。
  - 評測哪一個模型能最好地解釋觀測序列。
HMM 的三個基本問題的解決方案
- 機率計算問題：前向算法；
  - 先了解直接計算法，理解 HMM 須要計算的機率的方法和目的，同時明白直接計算法存在的問題；
  - 再瞭解前向算法，若是利用柵格方法疊加前面計算的成果，從而下降直接計算法的龐大計算量。
- 預測問題：Viterbi 算法；
- 學習問題：前向 + 後向算法 +EM 算法。
  - 利用前向 + 後向算法計算轉移機率矩陣；
  - 再基於 MLE 理論構造 P(O|λ) 函數；
  - 由於函數中有三個參數不可知，沒法直接計算獲得，由於採用 EM 算法迭代求解。
HMM 的基本類型
- 基本的 HMM 類型
  - 4 狀態遍歷 HMM；其餘類型都是遍歷 HMM 的特例。
  - 4 狀態從左到右 HMM；
  - 6 狀態從左到右並行路徑 HMM。
- 觀測序列的密度是連續函數的 HMM：增長了混合高斯做爲約束；
- 自迴歸的 HMM：很適合語音處理；
- 無輸出的 HMM：即某些狀態轉移時無觀測輸出，主要用於語音識別；
- 一組狀態到另外一組狀態轉換：組內狀態無轉移；
- 優化準則：利用機率理論（ML）或信息理論（MMI，MDI）刻畫；
- 比較 HMM 模型：用於模型的測度和選擇，經常使用的測度（交叉熵或散度或判別信息）
HMM 算法的具體實現方法
- 觀測數據的尺度化，方便計算機處理，防止溢出；
- HMM 模型的訓練：經過多個觀測序列進行訓練，估計模型的參數；
- HMM 模型參數的初始值設定，沒有形式化方法，只能憑藉經驗；
- 觀測數據數量過少，或者觀測數據不完整
  - 擴大用於訓練的觀測集的大小（現實不可操做）；
  - 減小 HMM 模型的參數個數，即減少 HMM 模型的規模；
  - 利用插值的方法補齊或者增長數據。
- HMM 模型的選擇
  - 肯定 HMM 模型的狀態（模型狀態數，模型路徑數）
  - 肯定 HMM 觀測的標誌（連續仍是離散，單個仍是混合）
  - 無形式化方法，依賴於具體的應用。
學習總結
- 隨機過程和 HMM 算法的基本概念的理解，特別是語音識別和語言處理方向的研究極爲重要；
- HMM 算法的計算過程的瞭解，雖然能夠調用成熟的模塊，可是瞭解這個計算過程對於 HMM 計算的調優可能會有幫助；
- HMM 算法的學習極力推薦 [Rabiner, 1989]，本章的框架就是基於這篇文章寫的。

C11. 條件隨機場（CRF）的算法及推廣

條件隨機場（Conditional Random Field, CRF）的基本概念
- 機率模型
  - 提供了一種描述框架，將學習任務歸結於計算變量的機率分佈。
  - 推斷：利用已知變量推測未知變量的分佈，核心是如何基於可觀測變量推測出未知變量的條件分佈。
- 生成模型與判別模型
  - 生成 (generative) 模型
    - 考慮聯合分佈，是全部變量的全機率模型；
    - 由狀態序列決定觀測序列，所以能夠模擬（「生成」）全部變量的值。
    - 具備嚴格的獨立性假設；
    - 特徵是事先給定的，而且特徵之間的關係直接體如今公式中。
    - 優勢
      - 處理單類問題比較靈活；
      - 模型變量之間的關係比較清楚；
      - 模型能夠經過增量學習得到；
      - 能夠應用於數據不完整的狀況。
    - 缺點：模型的推導和學習比較複雜。
    - 應用
      - n 元語法模型
      - HMM
      - Markov 隨機場
      - Naive Bayes 分類器
      - 機率上下文無關文法
  - 判別 (discriminative) 模型
    - 考慮條件分佈，認爲由觀測序列決定狀態序列，直接對後驗機率建模；
    - 從狀態序列中提取特徵，學習模型參數，使得條件機率符合必定形式的最優。
    - 特徵能夠任意給定，通常利用函數進行表示。
    - 優勢：模型簡單，容易創建與學習；
    - 缺點：描述能力有限，變量之間的關係不清晰，只能應用於有監督學習。
    - 應用
      - 最大熵模型
      - 條件隨機場
      - 最大熵 Markov 模型 (maximum-entropy Markov model, MEMM)
      - 感知機
- 機率圖模型：是一類用圖來表達變量相關關係的機率模型，
  - 有向圖模型（Bayes 網）：使用有向無環圖表示變量間的依賴關係，如：推導關係
    - 靜態 Bayes 網絡
    - 動態 Bayes 網絡：適合處理通常圖問題
      - 隱 Markov 模型：結構最簡單的動態 Bayes 網，適合處理線性序列問題，可用於時序數據建模，主要應用領域爲語音識別、天然語言處理等。
  - 無向圖模型（Markov 網）：使用無向圖表示變量間的依賴關係，如：循環關係
    - Markov 隨機場：典型的 Makrov 網
    - Boltzman 機
    - 通用條件隨機場：適合處理通常圖問題
      - 線性鏈式條件隨機場：適合處理線性序列問題
- 隨機場：
機率圖模型
- 在機率模型的基礎上，使用了基於圖的方法來表示機率分佈（或者機率密度、密度函數），是一種通用化的不肯定性知識表示和處理的方法。
- 圖是表示工具
  - 結點表示一個或者一組隨機變量
  - 結點之間的邊表示變量間的機率依賴關係，即「變量關係圖」。
Bayes 網絡（信念網，信度網，置信網）
- 目的：經過幾率推理處理不肯定性和不完整性問題
- 構造 Bayes 網絡的主要問題
  - 表示：在某一隨機變量的集合上給出其聯合機率分佈。
  - 推斷：由於模型完整描述了變量及其關係，能夠推斷變量的各類問題。
    - 精確推理方法：變量消除法和團樹法
    - 近似推理方法：重要性抽樣法、MCMC 模擬法、循環信念傳播法和泛化信念傳播法等
  - 學習：決定變量之間相互關聯的量化關係，即儲存強度估計。
    - 參數學習經常使用方法：MLE、MAP、EM 和 Bayes 估計法。
    - 結構學習：
Markov 隨機場 (Markov Random Field, MRF)
- 定義
  - 是一組有 Markov 性質的隨機變量的聯合機率分佈模型，
  - 聯合機率分佈知足成對、局部和全局 Markov 性。
  - 由一個無向圖 G 和定義 G 上的勢函數組成。
- 基本概念
  - 團 (clique)：是圖中結點的一個子集，團內任意兩個結點都有邊相連。也稱爲徹底子圖 (complete subgraph)。
  - 極大團 (maximal clique)：若在一個團 C 中加入任何一個結點都再也不造成團，就說那個團 C 是最大團。極大團就是不能被其餘團所包含的團。
  - 因子分解 (factorization)：將機率無向圖模型的聯合機率分佈表示爲其最大團上的隨機變量的函數的乘積形式的操做。
  - 分離集 (separating set)：若從結點集 A 中的結點到結點集 B 中的結點都必須通過結點集 C 中的結點，則稱結點集 A 和 B 被結點集 C 所分離。
  - 全局 Markov 性：給定兩個變量子集的分離集，則這兩個變量子集條件獨立
    - 局部 Markov 性：給定某變量的鄰接變量，則該變量獨立於其餘變量
    - 成對 Markov 性：給定全部其餘變量，兩個非鄰接變量條件獨立。
  - 勢函數
    - 用於將模型進行參數化的參數化因子，稱爲團勢能或者團勢能函數，簡稱勢函數。
    - 定義在變量子集上的非負實函數，主要用於定義機率分佈函數，亦稱「因子」。
    - 多個變量之間的聯合機率能夠基於團分解爲多個因子的乘積。
    - 指數函數常常被用於定義勢函數。
條件隨機場 (Conditional Random Field, CRF)
- 用來處理標註和劃分序列結構數據的機率化結構模型。
- 是給定一組輸入隨機變量條件下另外一組輸出隨機變量的條件機率分佈模型
  - 假設輸出隨機變量構成 Makrov 隨機場。
- 線性鏈條件隨機場
  - 輸入序列對輸出序列預測的判別模型
  - 形式爲對數線性模型
- 構造 CRF 的主要問題
  - 特徵的選取
  - 參數訓練
  - 解碼
- 優勢：相比於 HMM 沒有獨立性要求，相比於條件 Markov 模型沒有標識偏置問題。
學習總結
- 本書的描述概念性內容過少，不利於理解，建議閱讀 [周志華，2018] C14
- 以機率圖模型爲基礎來理解條件隨機場會更加容易，也可以保證知識相互之間的聯繫，還能夠加深對 HMM 的理解。
- CRF 的主要應用是天然語言處理，所以結合天然語言處理來理解概念也會更加深入。 [宗成慶，2018] C06
- 雖然國內幾本書都寫的不錯，可是 CRF 都不是他們書中的重點，若想深刻學習 CRF 仍是請參考 [Sutton, 2012]

C12. 統計學習方法總結

10 種統計學習方法特色的歸納總結node

方法	適用問題	模型特色	模型類型	學習策略	學習的損失函數	學習算法
感知機	二類分類	分離超平面	判別模型	極小化誤分點到超平面距離	誤分點到超平面距離	隨機梯度降低
K 近鄰法	多類分類，迴歸	特徵空間，樣本點	判別模型	____	____	____
樸素貝葉斯	多類分類	特徵與類別的聯合機率分佈區，條件獨立假設	生成模型	極大似然估計，極大後驗機率估計	對數似然損失	機率計算公式，EM 算法
決策樹	多類分類，迴歸	分類樹，迴歸樹	判別模型	正則化的極大似然估計	對數似然損失	特徵選擇，生成，剪枝
邏輯斯蒂迴歸與最大熵模型	多類分類	特徵條件下類別的條件機率分佈，對數線性模型	判別模型	極大似然估計，正則化的極大似然估計	邏輯斯蒂損失	改進的迭代尺度算法，梯度降低，擬牛頓法
支持向量機	二類分類	分離超平面，核技巧	判別模型	極小化正則化的合頁損失，軟間隔最大化	合頁損失	序列最小最優化算法 (SMO)
提高方法	二類分類	弱分類器的線形組合	判別模型	極小化加法模型的指數損失	指數損失	前向分佈加法算法
EM 算法	機率模型參數估計	含隱變量機率模型	____	極大似然估計，極大後驗機率估計	對數似然損失	迭代算法
隱馬爾可夫模型	標註	觀測序列與狀態序列的聯合機率分佈模型	生成模型	極大似然估計，極大後驗機率估計	對數似然損失	機率計算公式，EM 算法
條件隨機場	標註	狀態序列條件下觀測序列的條件機率分佈，對數線性模型	判別模型	極大似然估計，正則化極大似然估計	對數似然損失	改進的迭代尺度算法，梯度降低，擬牛頓法

參考文獻

[Borman, 2004] Borman S. The expectation maximization algorithm-a short tutorial [J]. Submitted for publication, 2004, 41.
[Charles, 2011] Charles Sutton and Andrew McCallum, An Introduction to Conditional Random Fields [J]. Machine Learning 4.4 (2011): 267-373.
[Determined22, 2017] Determined22, http://www.cnblogs.com/Determined22/p/5776791.html , 2017.
[Duda, 2003] Duda R O, Peter E Hart, etc. 李宏東等譯。模式分類 [M]. 機械工業出版社。2003.
[Friedman, 2001] Friedman, Jerome H. 「Greedy Function Approximation: A Gradient Boosting Machine.」 Annals of Statistics, vol. 29, no. 5, 2001, pp. 1189–1232.
[Friedman, 2001] Friedman J, Hastie T, Tibshirani R. The elements of statistical learning [M]. New York: Springer series in statistics, 2001.
[Goodfellow, 2017] Goodfellow I, Bengio Y, Courville A. 深度學習 [M]. 人民郵電出版社。2017.
[Hagan, 2006] Martin T. Hagan. 戴葵等譯。神經網絡設計 [M]. 2002.
[Haykin, 2011] Haykin S . 神經網絡與機器學習 [M]. 機械工業出版社。2011.
[Hyvarinen, 2007] Aapo Hyvarinen, Juha Karhunen. 周宗潭譯獨立成分分析 [M]. 電子工業出版社。2007.
[Mitchell, 2003] Tom M.Mitchell. 肖華軍等譯。機器學習 [M]. 機械工業出版社。2003
[Rabiner, 1989] Rabiner L R. A tutorial on hidden Markov models and selected applications in speech recognition [J]. Proceedings of the IEEE, 1989, 77(2): 257-286.
[Samuel, 2007] Samuel Karlin M.Taylor 著，莊興無等譯。隨機過程初級教程。 [M]. 人民郵電出版社， 2007.
[Sutton, 2012] Sutton, Charles, and Andrew McCallum. 「An introduction to conditional random fields.」 Foundations and Trends® in Machine Learning 4.4 (2012): 267-373.
[周志華，2018] 周志華機器學習 [M]. 清華大學出版社。2018
[蘇劍林，2017] 蘇劍林，https://spaces.ac.cn/archives/4277 , 2017.
[盛驟，2015] 盛驟等編，機率論與數理統計（第四版）。 [M]. 高等教育出版社。 2015.
[宗成慶，2018] 宗成慶著，統計天然語言處理（第二版）。 [M]. 清華大學出版社。 2018.