在解釋機器學習的基本概念的時候,我發現本身老是回到有限的幾幅圖中。如下是我認爲最有啓發性的條目列表。算法
爲何低訓練偏差並不老是一件好的事情呢:上圖以模型複雜度爲變量的測試及訓練錯誤函數。app
低度擬合或者過分擬合的例子。上圖多項式曲線有各類各樣的命令M,以紅色曲線表示,由綠色曲線適應數據集後生成。機器學習
上圖爲何貝葉斯推理能夠具體化奧卡姆剃刀原理。這張圖給了爲何複雜模型原來是小几率事件這個問題一個基本的直觀的解釋。水平軸表明了可能的數據集D空間。貝葉斯定理以他們預測的數據出現的程度成比例地反饋模型。這些預測被數據D上歸一化機率分佈量化。數據的機率給出了一種模型Hi,P(D|Hi)被稱做支持Hi模型的證據。一個簡單的模型H1僅能夠作到一種有限預測,以P(D|H1)展現;一個更增強大的模型H2,舉例來講,能夠比模型H1擁有更加自由的參數,能夠預測更多種類的數據集。這也代表,不管如何,H2在C1域中對數據集的預測作不到像H1那樣強大。假設相等的先驗機率被分配給這兩種模型,以後數據集落在C1區域,不那麼強大的模型H1將會是更加合適的模型。ide
(1)爲何集體相關的特徵單獨來看時可有可無,這也是(2)線性方法可能會失敗的緣由。從Isabelle Guyon特徵提取的幻燈片來看。函數
爲何可有可無的特徵會損害KNN,聚類,以及其它以類似點彙集的方法。左右的圖展現了兩類數據很好地被分離在縱軸上。右圖添加了一條不切題的橫軸,它破壞了分組,而且使得許多點成爲相反類的近鄰。學習
非線性的基礎函數是如何使一個低維度的非線性邊界的分類問題,轉變爲一個高維度的線性邊界問題。Andrew Moore的支持向量機SVM(Support Vector Machine)教程幻燈片中有:一個單維度的非線性帶有輸入x的分類問題轉化爲一個2維的線性可分的z=(x,x^2)問題。測試
爲何判別式學習比產生式更加簡單:上圖這兩類方法的分類條件的密度舉例,有一個單一的輸入變量x(左圖),連同相應的後驗機率(右圖)。注意到左側的分類條件密度p(x|C1)的模式,在左圖中以藍色線條表示,對後驗機率沒有影響。右圖中垂直的綠線展現了x中的決策邊界,它給出了最小的誤判率。優化
學習算法能夠被視做優化不一樣的損失函數:上圖應用於支持向量機中的「鉸鏈」錯誤函數圖形,以藍色線條表示,爲了邏輯迴歸,隨着錯誤函數被因子1/ln(2)從新調整,它經過點(0,1),以紅色線條表示。黑色線條表示誤分,均方偏差以綠色線條表示。spa
上圖帶有兩個預測的最小二乘迴歸的N維幾何圖形。結果向量y正交投影到被輸入向量x1和x2所跨越的超平面。投影y^表明了最小二乘預測的向量。3d
爲何Lasso算法(L1正規化或者拉普拉斯先驗)給出了稀疏的解決方案(好比:帶更多0的加權向量):上圖lasso算法的估算圖像(左)以及嶺迴歸算法的估算圖像(右)。展現了錯誤的等值線以及約束函數。分別的,當紅色橢圓是最小二乘偏差函數的等高線時,實心的藍色區域是約束區域|β1| + |β2| ≤ t以及β12 + β22 ≤ t2。