選自arXiv算法
機器之心編譯編程
參與:Panda、蔣思源、黃小天網絡
人工智能技術已經成爲當前技術變革的主要推進力之一,從計算機科學到工程學等許多科學技術領域都在不遺餘力想用自動化的方法創造更大的價值。要想作到這一點,工程師固然必需要對當前最具潛力的機器學習方法有一個大體瞭解。倫敦國王學院信息學習教授 Osvaldo Simeone 近日在 arXiv 上公開發布了長達 200 頁的最新專著,爲工程師提供了全面細緻的機器學習入門介紹。在本文中,機器之心對這本專著的摘要及目錄部分進行了介紹。專著原文可在 arXiv 下載,工程師和準工程師必定不要錯過。
爲工程師寫的機器學習簡介(A Brief Introduction to Machine Learning for Engineers)數據結構
專著地址:https://arxiv.org/abs/1709.02840架構
摘要框架
本專著的目標是介紹機器學習領域內的關鍵概念、算法和理論框架,涵蓋了監督學習與無監督學習、統計學習理論、機率圖模型和近似推斷等方向。本專著的目標讀者是具備機率學和線性代數背景的電氣工程師。本書基於第一原理(first principle)寫做,並按照有清晰定義的分類方式對其中的主要思想進行了組織,其中的類別包含鑑別式模型和生成式模型、頻率論者和貝葉斯方法、準確推斷和近似推斷、有向模型和無向模型、凸優化和非凸優化。本書中的數學框架使用了信息論的描述方式,以便工具具備統一性。書中提供了簡單且可重複的數值示例,以便讀者瞭解相關的關鍵動機和結論。本專著的目的並非要爲每一個特定類別中已有的大量解決方案提供詳盡的細節描述(這些描述讀者可參閱教科書和論文了解),而是爲了給工程師提供一個切入點,以便他們能借此進一步深刻機器學習相關文獻。機器學習
1 引言分佈式
1.1 機器學習函數
1.2 目標和綱要工具
2 線性回納入門介紹
2.1 監督學習
2.2 推斷
2.3 頻率論者
2.4 貝葉斯方法
2.5 最小描述長度(MDL)
2.6 解釋與因果關係
2.7 信息論指標
2.8 總結
3 機率學習模型
3.1 指數分佈族
3.2 最大熵性質
3.3 頻率學習(Frequentist Learning)
3.4 貝葉斯學習
3.5 基於能量的模型(Energy-based Models)
3.6 經過廣義線性模型(GLM)的監督學習
3.7 總結
4 分類
4.1 將分類做爲監督學習問題
4.2 隨機梯度降低
4.3 判別式肯定性模型
4.4 判別式機率模型
4.5 生成式機率模型
4.6 多類別分類
4.7 非線性判別式模型:深度神經網絡
4.8 Boosting
4.9 總結
5 統計學習理論
5.1 監督學習的一種形式框架
5.2 PAC 可學習性和樣本複雜性
5.3 有限假設類別的 PAC 可學習性
5.4 VC 維和 PAC 學習的基本定理
5.5 總結
6 無監督學習
6.1 無監督學習
6.2 K-均值聚類
6.3 ML、ELBO 和 EM
6.4 有向生成模型
6.5 無向生成模型
6.6 判別式模型
6.7 自編碼器
6.8 Ranking
6.9 總結
7 機率圖模型
7.1 介紹
7.2 貝葉斯網絡
7.3 馬爾可夫隨機場
7.4 機率圖模型中的貝葉斯推斷
7.5 總結
8 近似推斷和學習
8.1 蒙特卡羅方法
8.2 變分推斷
8.3 基於蒙特卡羅的變分推斷
8.4 近似學習
8.5 總結
9 結語
附錄
A 附錄 A:信息度量
A.1 熵
A.2 條件熵和互信息
A.3 散度度量
B 附錄 B:KL 散度和指數分佈族
致謝
參考文獻
介紹
當我在教授機器學習課程時,有着工程學背景的同事和學生常常問及:如何更好地入門機器學習。我一般會以書籍推薦的形式迴應——通常但稍微過期的介紹,請讀這本書;對於基於機率模型方法的詳細調查,請查看這些索引;若是想要了解統計學習,我以爲這篇文章頗有用;如此等等。結果證實這些回答沒法使我與提問者滿意。書籍不少很厚,使得繁忙的工程學教授和學生望而卻步。所以我首次撰寫了這篇專論,一篇基礎且體量適當的入門書,其中經過簡單的術語面向工程師統一介紹了機器學習主要思想和原理,同時涵蓋了其最新發展和文獻指導,以供進一步研究。
第二章,線性回納入門介紹
第二章咱們回顧了三個核心的學習框架,即頻率論者(frequentist)、貝葉斯和 MDL。頻率論者爲數據假定了真實、未知分佈的存在,並致力於學習一個預測器(predictor),從而更好地泛化來自這一分佈的不可見數據。這可經過學習一個插入最優預測器表達式的機率模型或者直接解決預測變量上的 ERM 問題而完成。貝葉斯方法輸出一個預測分佈,可經過解決計算不可見標籤上後驗分佈的推斷問題而整合先驗信息與數據。最後,MDL 方法旨在篩選一個模型,容許使用最少的比特描述數據,所以去除在未觀察實例上泛化的任務。本章也普遍討論了過擬合的關鍵問題,展現了學習算法的性能可就誤差和評估錯誤得到理解。運行實例是用於高斯模型的線形迴歸中的一個。下一章將會介紹更多學習構建和學習常見幾率模型的工具。
第三章,機率學習模型
本章中,咱們回顧了機率模型的一個重要類別——指數族,它被普遍用做學習算法的組件以完成監督、無監督學習任務。這一類別成員的關鍵屬性是由同一家族中的梯度 LL 和共軛先驗的可用性採用的簡單形式。下一章咱們將講述指數族在解決分類問題方面的不一樣應用模型。
第四章,分類
本章扼要概述了分類的關鍵問題。按照第二章提出的分類系統,咱們依據用來鏈接解釋性變量與標籤的模型類型劃分了學習算法。尤爲地,咱們描述了線性與非線性的肯定性判別模型,涵蓋了用於多層神經網絡的感知機算法、SVM、反向傳播;聚焦於 GLM 的機率判別模型;包括 QDA 和 LDA 在內的機率生成模型。咱們一樣介紹了混合模型與提高方法(Boosting)。儘管本章聚焦在算法方面,下一章將討論一個理論框架,研究監督學習的性能。
第五章,統計學習理論
本章描述了經典的 PAC 框架,並用它分析監督學習的泛化性能。咱們知道 VC 維理論定義了模型的能力,這就意味着 VC 維在給定模型準確度和置信度上度量了其學習所須要的樣本數量。在下一章中,咱們將從監督學習進一步討論無監督學習問題。
第六章,無監督學習
在本章節中,咱們回顧了無監督學習的基礎知識。優秀的無監督學習方法通常都經過隱變量或潛在變量幫助解釋數據的結構。咱們首先經過指望最大化算法(EM)回顧了機器學習及各類變體。隨後介紹了機器學習生成模型 GAN,該方法使用從數據中學到的散度度量以代替 KL 散度。隨後接着回顧了經過 InfoMax 原則訓練的判別模型和自編碼器。在下一章節中,咱們經過討論機率圖模型的強大框架而擴展了對機率模型的理解。
第七章,機率圖模型
機率圖模型將關於數據結構的先驗信息編碼爲因果關係的形式,即經過有向圖和貝葉斯網絡(BN),或經過無向圖和馬爾可夫隨機場(MRF)編碼爲相互之間的依賴性關係。這種結構能夠表示爲條件獨立性屬性。機率圖模型所編碼的結構屬性能有效地控制模型的性能,所以能以可能的誤差爲代價減小過模型擬合。機率圖模型也推進執行貝葉斯推斷,至少在樹型結構的圖中是這樣的。下一章將討論貝葉斯推斷和關聯學習比較重要的問題,固然具體的方法對計算力的需求就太大了。
第八章,近似推斷與學習
本章經過關注 MC 和 VI 方法概覽了近似推斷技術。而且重點關注了選擇不一樣類型的近似準則及其所產生的影響,例如介紹 M- 和 I- 映射。一樣咱們還討論了在學習問題上使用近似推斷的方法。此外,咱們還討論了本章目前最優的技術進展。
第九章,結語
這一章節主要是簡單介紹機器學習,尤爲是強調那些統一框架下的概念。除了前文縱覽機器學習的各類方法,咱們在這年還提供了那些只是提到或簡要描述的重要概念及其擴展方向,所以下面將提供前文沒有介紹的重要概念列表。
隱私:在許多應用中,用於訓練機器學習算法的數據集包含了不少敏感的私人信息,例如推薦系統中的我的偏好和醫療信息等等。所以確保學習的模型並不會揭露任何訓練數據集中的我的記錄信息就顯得十分重要了。這一約束能使用差分隱私(differential privacy)概念形式化表達。保證我的數據點隱私的典型方法包括在執行 SGD 訓練模型時對梯度添加隨機噪聲,該方法依賴於使用不一樣的訓練數據子集混合所學習到的專家系統 [1]。
魯棒性:已經有研究者代表不一樣的機器學習模型包含神經網絡對數據集中很小的變化十分敏感,它們會對次要的、正確選擇的和解釋變量中的變更給出錯誤的響應。爲了確保模型關於對抗樣本具備魯棒性,修正訓練過程是具備重要實踐意義的研究領域 [37]。
計算平臺和編程框架:爲了擴展機器學習應用,利用分佈式計算架構和相應的標準編程框架 [9] 是十分有必要的。
遷移學習:針對特定任務並使用給定數據集進行訓練的機器學習模型,目前若是須要應用到不一樣的任務還須要從新初始化和訓練。遷移學習研究領域即但願將預訓練模型從一個任務得到的專業知識遷移到另外一個任務中。神經網絡的典型解決方案規定了通用隱藏層的存在,即對不一樣任務訓練的神經網絡有一些隱藏層是相同的。
域適應(Domain adaptation):在許多學習問題中,可用數據和測試數據的分佈並不相同。例如在語音識別中,模型學習時所使用的用戶數據和訓練後其餘用戶使用該模型所提供的語音數據是不一樣的。廣義 PAC 理論分析了這種狀況,其將測試分佈做爲測試和訓練的分佈差別函數而得到了泛化偏差邊界。
有效通訊學習(Communication-efficient learning):在分佈式計算平臺上,數據一般被分配在處理器中,處理器中的通訊形成了延遲與能耗。一個重要的研究問題是找到學習性能與通訊成本之間的最佳折衷。
強化學習:強化學習是機器學習方法最近大獲成功的根本核心,得到了玩視頻遊戲或與人類選手對決的必要技能。在強化學習中,一方想要學習世界中已觀察到的狀態 x 和動做 t 之間的最優映射,好比說 p(t|x, θ)。不一樣於監督學習,強化學習中最優動做不可知,機器會因爲採起的動做而得到一個獎勵/懲罰信號。其中一個流行的方法是深度強化學習,它經過神經網絡建模映射 p(t|x, θ)。經過使用強化方法評估梯度並藉助 SGD,這被訓練從而最大化平均獎勵。