[轉]論數學在機器學習中的做用

時間 2019-11-12

標籤數學機器學習欄目應用數學简体版

原文原文鏈接

機器學習和計算機視覺都是不少種數學的交匯場。看着不一樣的理論體系的交匯，對於一個researcher來講，每每是很是exciting的enjoyable的事情。不過，這也表明着要充分了解這個領域而且取得有意義的進展是很艱苦的。算法

Linear Algebra (線性代數) 和 Statistics (統計學) 是最重要和不可缺乏的。網絡

這表明了Machine Learning中最主流的兩大類方法的基礎。一種是以研究函數和變換爲重點的代數方法，好比Dimension reduction，feature extraction，Kernel等，一種是以研究統計模型和樣本分佈爲重點的統計方法，好比Graphical model, Information theoretical models等。它們側重雖有不一樣，可是經常是共同使用的，對於代數方法，每每須要統計上的解釋，對於統計模型，其具體計算則須要代數的幫助。以代數和統計爲出發點，繼續往深處走，咱們會發現須要更多的數學。機器學習
Calculus (微積分)，只是數學分析體系的基礎。函數

其基礎性做用不言而喻。Learning研究的大部分問題是在連續的度量空間進行的，不管代數仍是統計，在研究優化問題的時候，對一個映射的微分或者梯度的分析老是不可避免。而在統計學中，Marginalization和積分更是密不可分——不過，以解析形式把積分導出來的狀況則很少見。學習
Partial Differential Equation （偏微分方程)，這主要用於描述動態過程，或者仿動態過程。優化

這個學科在Vision中用得比Learning多，主要用於描述連續場的運動或者擴散過程。好比Level set, Optical flow都是這方面的典型例子。編碼
Functional Analysis (泛函分析)，通俗地，能夠理解爲微積分從有限維空間到無限維空間的拓展——固然了，它實際上遠不止於此。spa

在這個地方，函數以及其所做用的對象之間存在的對偶關係扮演了很是重要的角色。Learning發展至今，也在向無限維延伸——從研究有限維向量的問題到以無限維的函數爲研究對象。Kernel Learning 和Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。不少作Learning的人把Kernel簡單理解爲Kernel trick的運用，這就把kernel的意義嚴重弱化了。在泛函裏面，Kernel (Inner Product)是創建整個博大的代數體系的根本，從metric, transform到spectrum都根源於此。orm
Measure Theory (測度理論)，這是和實分析關係很是密切的學科。可是測度理論並不限於此。對象

從某種意義上說，Real Analysis能夠從Lebesgue Measure（勒貝格測度）推演，不過其實還有不少別的測度體系——機率自己就是一種測度。測度理論對於Learning的意義是根本的，現代統計學整個就是創建在測度理論的基礎之上——雖然初級的機率論教科書通常不這樣引入。在看一些統計方面的文章的時候，你可能會發現，它們會把統計的公式改用測度來表達，這樣作有兩個好處：全部的推導和結論不用分別給連續分佈和離散分佈各自寫一遍了，這兩種東西均可以用同一的測度形式表達：連續分佈的積分基於Lebesgue測度，離散分佈的求和基於計數測度，並且還能推廣到那種既不連續又不離散的分佈中去（這種東西不是數學家的遊戲，而是已經在實用的東西，在Dirchlet Process或者Pitman-Yor Process裏面會常常看到)。並且，即便是連續積分，若是不是在歐氏空間進行，而是在更通常的拓撲空間（好比微分流形或者變換羣），那麼傳統的黎曼積分（就是大學一年級在微積分課學的那種）就不work了，你可能須要它們的一些推廣，好比Haar Measure或者Lebesgue-Stieltjes積分。
Topology（拓撲學)，這是學術中很基礎的學科。

它通常不直接提供方法，可是它的不少概念和定理是其它數學分支的基石。看不少別的數學的時候，你會常常接觸這樣一些概念：Open set / Closed set，set basis，Hausdauf, continuous function，metric space, Cauchy sequence, neighborhood, compactness, connectivity。不少這些也許在大學一年級就學習過一些，當時是基於極限的概念得到的。若是，看過拓撲學以後，對這些概念的認識會有根本性的拓展。好比，連續函數，當時是由epison法定義的，就是不管取多小的正數epsilon，都存在xxx，使得xxx。這是須要一種metric去度量距離的，在general topology裏面，對於連續函數的定義連座標和距離都不須要——若是一個映射使得開集的原像是開集，它就是連續的——至於開集是基於集合論定義的，不是一般的開區間的意思。這只是最簡單的例子。固然，咱們研究learning也許不須要深究這些數學概念背後的公理體系，可是，打破原來定義的概念的侷限在不少問題上是必須的——尤爲是當你研究的東西它不是在歐氏空間裏面的時候——正交矩陣，變換羣，流形，機率分佈的空間，都屬於此。
Differential Manifold (微分流形)，通俗地說它研究的是平滑的曲面。

一個直接的印象是它是否是能夠用來fitting一個surface什麼的——固然這算是一種應用，可是這是很是初步的。本質上說，微分流形研究的是平滑的拓撲結構。一個空間構成微分流形的基本要素是局部平滑：從拓撲學來理解，就是它的任意局部都同胚於歐氏空間，從解析的角度來看，就是相容的局部座標系統。固然，在全局上，它不要求和歐氏空間同胚。它除了能夠用於刻畫集合上的平滑曲面外，更重要的意義在於，它能夠用於研究不少重要的集合。一個n-維線性空間的所有k-維子空間(k
Lie Group Theory (李羣論)，通常意義的羣論在Learning中被運用的不是不少，羣論在Learning中用得較多的是它的一個重要方向Lie group。

定義在平滑流形上的羣，而且其羣運算是平滑的話，那麼這就叫李羣。由於Learning和編碼不一樣，更多關注的是連續空間，由於Lie group在各類羣中對於Learning特別重要。各類子空間，線性變換，非奇異矩陣都基於一般意義的矩陣乘法構成李羣。在李羣中的映射，變換，度量，劃分等等都對於Learning中代數方法的研究有重要指導意義。
Graph Theory（圖論)，圖，因爲它在表述各類關係的強大能力以及優雅的理論，高效的算法，愈來愈受到Learning領域的歡迎。

經典圖論，在Learning中的一個最重要應用就是graphical models了，它被成功運用於分析統計網絡的結構和規劃統計推斷的流程。Graphical model所取得的成功，圖論可謂功不可沒。在Vision裏面，maxflow (graphcut)算法在圖像分割，Stereo還有各類能量優化中也廣受應用。另一個重要的圖論分支就是Algebraic graph theory (代數圖論)，主要運用於圖的譜分析，著名的應用包括Normalized Cut和Spectral Clustering。近年來在semi-supervised learning中受到特別關注。