李宏毅老師的機器學習課程和吳恩達老師的機器學習課程都是都是ML和DL很是好的入門資料,在YouTube、網易雲課堂、B站都能觀看到相應的課程視頻,接下來這一系列的博客我都將記錄老師上課的筆記以及本身對這些知識內容的理解與補充。(本筆記配合李宏毅老師的視頻一塊兒使用效果更佳!)算法
1.Shallow network VS Deep network網絡
在比較淺層網絡與深層網絡時,要讓「矮胖」的網絡和「高瘦」的網絡的參數數目相等,這樣比較才公平,以下圖所示app
比較結果以下圖所示:機器學習
從上圖能夠看出:即使是在深層網絡參數較少的狀況下,深層網絡也會比淺層網絡表現好。 這是由於「深層」其實至關於「模組化」,第一個隱層是最基本的分類器,第二個隱層是用第一個隱層建造的分類器,以此類推。函數
2.模組化(Modularization)學習
(1)舉個圖像識別的例子,識別長髮男生、長髮女生、短髮男生和短髮女生,以下,因爲長髮男生樣本少,因此模型訓練出來的效果對測試集上的長髮男生效果會比較差(樣本不平衡)測試
所以接下來讓咱們使用模組化的思想解決這一問題,咱們先考慮識別基礎類別(男女、長髮短髮),即咱們先input一張圖片,識別這是長髮仍是短髮,這是男仍是女,此時樣本比例是至關的,由此訓練的效果不會變差,且由兩個基礎類別的組合能夠獲得最終的四個類別。優化
深度學習的優點就體如今模組化的處理方式,第二層的神經元把第一層的神經元看成modile,第三層的神經元把第二層的神經元看成module(具體module由算法自動學習)。此時複雜的問題變成簡單問題,深度學習須要的數據比較少。spa
3.淺層網絡確實能夠表示任意函數,可是使用深層結構更有效率.net
具體能夠經過邏輯門電路例子來解釋這個理論:用兩層邏輯門就能夠實現任何布爾函數,可是用多層結構更簡單、須要的邏輯門更少,更少的邏輯門表明着更高的效率
4.最後,在本節課老師採用了語音識別,MNIST數據集識別等例子再次證實和強調了Why Deep?和Deep帶來的好處!
1.Introduction
(1)半監督學習的訓練數據,有一部分是標註數據,有一部分是無標註數據。
(2)Transductive learning和Inductive learning均可算是半監督學習,區別在於前者的無標註數據是測試數據(除去label),然後者的無標註數據不包括測試數據。實際中用哪一種常取決因而否有測試集。
(3)無標註數據的分佈會讓咱們作出一些假設,半監督學習有沒有用就取決於假設是否合理。
(4)介紹半監督學習的大綱:以下圖所示
2.Semi-supervised Learning for Generative Model
(1)先讓咱們看看監督學習和半監督學習的生成模型的對比,(Supervised Generative Model VS Semi-supervised Generative Model)
監督學習:
非監督學習:
從上圖能夠看出,無標註數據有助於從新估計生成模型假設中的參數,從而影響決策邊界
(2)求解模型採用的方法
求解該模型採用的是EM算法,EM算法也是機器學習十大算法之一,求解步驟以下圖所示:
3.Low-density Separation Assumption
(1)以前提過半監督學習有沒有用很大一部分就取決於假設是否合理,如今讓咱們瞭解一下第一個假設「低密度分離」--------非黑即白。
(2)該假設的應用過程以下:
(3)Self-training結果優化:若是神經網絡的輸出是一個分佈,咱們但願這個分佈要集中
4.Smoothness Assumption(第二個假設)
(1)核心思想:假設特徵的部分是不均勻的(在某些地方集中,某些地方分散),若是兩個特徵在高密度區域是相近的,那麼兩者的標籤是相同的。
就拿上圖數字辨識的例子來看,能夠經過一條high density path完成------->
的轉變
(2)若是數據量很大,如何作到肯定這條high density path呢?
這種方法有明顯的缺點:它只適用於每一個class的分類較爲清晰。因此引入另一種辦法
1)如何構建這個圖呢?
2)如何在圖中定量的表示平滑度呢?
其中,smoothness不必定要放在output上,放到任何一層均可以。
5.Better Representation
該部分的學習放到無監督學習中!!
課件pdf參考: https://blog.csdn.net/soulmeetliang/article/details/73251790
以上就是本次學習的內容,歡迎交流與討論