近日由吳恩達與 Kian Katanforoosh 指導的 CS230(深度學習)課程已經結束並放出了課程資料。這一門課程結合 Coursera 課外教學與課內教學展現了深度學習的基本概念與完整結構,機器之心簡要介紹了該課程及基本內容。web
課程地址:web.stanford.edu/class/cs230…算法
課程簡介:深度學習是 AI 領域中最受歡迎的技能之一。這門課程將幫助你學好深度學習。你將學到深度學習的基礎,理解如何構建神經網絡,並學習如何帶領成功的機器學習項目。你將學到卷積神經網絡(CNN)、循環神經網絡(RNN)、長短時間記憶網絡(LSTM)、Adam優化器、Dropout 方法、BatchNorm 方法、Xavier/He 初始化方法等。你將在醫療、自動駕駛、手語識別、音樂生成和天然語言處理等領域中進行案例研究。你不只能掌握理論,還能看到深度學習如何應用到產業中。咱們將須要使用 Python 和TensorFlow 來實現全部的項目,課程中也會教這一部分。完成這門課程後,你將能以創新的方式將深度學習應用到你的工做中。該課程是以翻轉課堂的形式教學的。你將先在家裏觀看 Coursera 視頻、完成編程任務以及在線測驗,而後來到課堂上作進一步討論和完成項目。該課程將以開放式的最終項目結束,教學團隊會在過程當中提供幫助。編程
CS230 採起課內和 Coursera 在線課程相結合的形式,其中每個課程的模塊都須要在 Coursera 上觀看視頻、作測試並完成編程做業。一週的課程約須要在 Cousera 上在線學習兩個模塊再加上 80 分鐘的課內時間。網絡
這門課程要求學生有一些背景知識,首先學生須要瞭解計算機科學基本原理與技能,而且能寫合理、簡潔的計算機程序。其次學生須要熟悉機率論與線性代數等基本的數學知識。架構
目前 CS230 的結課項目報告與 Poster 展現都已經發布,包含多種主題,如音樂生成、情緒檢測、電影情感分類、癌症檢測等。課程報告和 Poster 前三名已經公佈:框架
報告第一名:Image-to-Image Translation with Conditional-GAN (Weini Yu, Jason Hu, Yujo Zhouchangwan Yu)機器學習
該報告使用條件生成對抗網絡(C-GAN)研究航空圖圖像翻譯。參與者首先復現了 Isola 等人提出的 C-GAN 模型,而後探索了不一樣的網絡架構、損失函數和訓練策略。對不一樣模型進行了定性和定量評估,得出結論:基於殘差的模型在僅使用 1000 個訓練樣本的狀況下獲得了很是高質量的圖像。ide
報告第二名:Deep Knowledge tracing and Engagement with MOOCs (Klint Kanopka, Kritphong Mongkhonvanit, David Lang)函數
該報告利用深度知識追蹤網絡以及 MOOC 課程互動協變量,計算學生的課程參與度,發現該方法可以以超過 88% 的準確率預測學生的下一個項目反應。利用這些預測能夠向學生提供針對性的干預,也能夠對課程進行鍼對性的改進。性能
報告第三名:Deep Learning for Improving Power-Accuracyof Heart Rate Monitors (Albert Gural)
該報告利用深度學習方法解決從低採樣率 PPG 中肯定心率以及如何肯定運動僞影中的加速度計信號的問題。
Poster 第一名:Painting Outside the Box: Image Outpainting with GANs (Mark Sabini, Gili Rusak)
Poster 第二名:LeafNet: A Deep Learning Solution to Tree Species Identification (Krishna Rao, Elena Herrero, Gabrielle Pacalin)
該 Poster 使用殘差網絡基於圖像對北美 185 個樹種進行分類。
Poster 第三名:Earthquake warning system: Detecting earthquake precursor signals using deep neural networks (Mustafa Al Ibrahim, Jihoon Park, Noah Athens)
該 Poster 對 1D CNN、2D CNN、RNN 的地震預測性能進行了評估。
課程主要內容
CS230 與吳恩達在 Coursera 上的深度學習專項課程同樣分 5 部分,即神經網絡與深度學習、提高深度神經網絡、機器學習項目的策略、卷積神經網絡及序列模型。
在第一課中介紹了神經網絡和深度學習的基礎。主要在課堂內介紹了深度學習的直觀概念,並藉助兩個模塊從頭開始學習神經網絡究竟是什麼。
其中第一課的第一個模塊 C1M1 主要從線性迴歸與房價預測引出神經網絡,並着重介紹了監督式深度學習的基本概念。以下 C1M1 展現了基本神經網絡的類別:
其中標準神經網絡即咱們常見的全鏈接網絡,它是最基礎也是最本質的「神經網絡式」層級表徵方法。標準神經網絡簡單而言即後一層的單個神經元接收前一層全部神經元激活值的加權和,並判斷本神經元是否是須要激活。而卷積網絡與全鏈接網絡最大的區別是後一層的神經元只與前一層神經元部分鏈接,且神經元之間存在權重共享,這樣的神經網絡減小了冗餘參數,並有利於建模如圖像那樣有局部結構的數據。最後的循環網絡又與前兩個前饋網絡不一樣,它在不一樣時間步上使用相同的神經網絡函數,並每個時間步都利用前面時間步的必要信息,這樣的網絡能有效處理天然語言等序列問題。
隨後在 C1M2 中,該課程開始具體介紹神經網絡。固然理解神經網絡仍是須要從 Logistic 迴歸與感知機算法開始,而最基礎的梯度降低與如何計算導數也是必須的。
如上所示爲 Logistic 迴歸的主要過程,咱們先根據初始化的
第二課介紹深度學習模型的內部數學結構,從淺層網絡逐步過渡到深度網絡,理解「深度」的重要意義。掌握了這些概念以後,對於如何從零開始構建深度學習網絡,能有一個基本的思路。而後是深度模型的優化或調參技巧,例如初始化、正則化、數據集劃分、Dropout、歸一化、梯度檢查等,和各類經典的學習率衰減方法,如動量算法、Adam 等。
在 C1M3 中,吳恩達主要描述了感知機與神經網絡的表徵方法,這裏仍須要推導大量的表達式。但只要理解了多層感知機的表達方法,那麼深度全鏈接網絡與其它深度神經網絡的理解就會變得容易得多。以下所示爲感知機向量化的表達式,其中主要是將前一層激活值的加權和 z 表示爲矩陣運算。
若理解的感知機或淺層網絡的計算過程與表達式,那麼深度前饋網絡的推斷過程就能輕鬆掌握。不過對於深度前饋網絡,另外一個很是重要的過程是反向傳播。由於模型參數須要梯度才能更新,所以將根據損失函數計算出來的梯度反向傳遞到各個層級就很是有必要了。以下,C1M4 主要就介紹了這種反向傳播:
如上所示,當咱們根據損失函數L(y hat, y) 計算出最後一層的梯度,咱們須要根據求導的鏈式法則將梯度反向傳遞到前層。此外,這一部分 C2M1 和 C2M2 分別介紹了深度學習的技巧與基本的最優化方法。其中雖優化方法從批量梯度降低和小批量梯度降低開始到 Adam 最優化方法介紹了基本的學習過程。以下是手推的小批量梯度降低,但咱們更常見的稱呼是隨機梯度降低。
小批量與批量的不一樣在於計算梯度的樣本比較少,通常是 3二、64 等。這樣每一次迭代所須要的計算量就大大減小,且還能經過引入噪聲增長收斂結果的魯棒性。
第三課介紹結構化機器學習項目。基礎部分涉及超參數調整、批規一化方法等,以及深度學習框架(如TensorFlow、PyTorch)的應用。而後是機器學習策略,包括垂直化調參、評估指標設置、數據集劃分等。這一課會介紹如何在實際案例中應用深度學習,Pranav Rajpurkar 將教你構建醫療領域的深度學習應用,即吳恩達團隊開發的 Chest X-Rays 項目。
在這個項目中,你將以 DenseNet 爲骨幹網絡架構,實現對肺部 X 射線圖像的分類(是否有肺炎)。其中涉及了數據集構建、模型訓練和模型評估等,能夠體驗深度學習產業化的完整過程。
在這一課的幾個模塊中,C3M1 和 C3M2 都介紹了機器學習中的策略。機器學習
中的策略主要關注於如何訓練模型,例如何時須要調整樣本數、怎麼樣算過擬合以及度量方法等。這裏最經典的就是誤差與方差問題,咱們經常須要根據誤差與方差肯定咱們的模型到底出現了什麼情況,例如過擬合與欠擬合等。其中高誤差表明擬合數據集的函數集合並不包含真正的那個,即偏離正確答案有點遠。而高方差表示擬合數據集的函數集合確實包含了真正的那個,但這個函數集合太大了,以致於每次搜索的都不許。第四課介紹卷積神經網絡,卷積神經網絡主要用於處理空間型數據,如圖像、視頻等,所以在計算機視覺中應用甚廣。在這一部分課程期間有一個期中測驗,能夠幫助你重溫以前學習過的內容。
CNN 的基礎部分涉及卷積運算、步幅、池化等,而後進一步介紹了幾個經典的 CNN 架構,如LeNet-五、AlexNet、VGG、ResNet、Inception 等。以後給出了幾個 CNN 開發過程當中的建議,涉及遷移學習、數據加強等。最後介紹了 CNN 領域的當前研究現狀。
這一部分以目標檢測應用爲主,詳細介紹了目標檢測的整個工做流,並在最後以 YOLO 算法爲例進行整合。以後還介紹了一些特殊的應用,例如人臉識別、神經風格遷移(畫風遷移)等,其中神經風格遷移有更爲詳細的工做流介紹。
在 C4M1 中,吳恩達重點介紹了 CNN 及各個模塊,包括卷積層、池化層、卷積步幅和 Padding 等。其中卷積層試圖將神經網絡中的每一小塊進行更加深刻的分析,從而得出抽象程度更高的特徵。通常來講經過卷積層處的神經元結點矩陣會變得更深,即神經元的組織在第三個維度上會增長。
以上展現了經典的LeNet-5 架構,正如 LeCun 在LeNet-5 原論文中所說,卷積網絡結合了三種關鍵性思想來確保模型對圖像的平移、縮放和扭曲具備必定程度的不變性,這三種關鍵思想即局部感覺野、權重共享和空間/時間子採樣。其中局部感覺野表示卷積核只關注圖像的局部特徵,而權重共享表示一個卷積核在整張圖像上都使用相同的權值,最後的子採樣即咱們經常使用的池化操做,它能夠精煉抽取的特徵。
第五課介紹序列模型。序列模型主要用於處理序列型數據,如音樂、語音、文本等。序列模型主要以循環神經網絡爲表明,本課將介紹 RNN 的基礎結構、類型、計算過程等,並以語言建模做爲典型案例進行分析。以後是一些著名的 RNN 變體,例如 GRU、LSTM、雙向 RNN、深度 RNN 等。
這一部分先簡單概述深度強化學習,而後開始以天然語言處理和詞嵌入爲主題,進一步講解 RNN 的進階應用。詞嵌入是不少天然語言處理模型的基礎,這一部分以詞嵌入爲主,強調了詞嵌入技術的遷移學習做用,而後介紹幾個經典的詞嵌入模型,例如 Word2Vec、GloVeword vectors 等,最後以情感分類做爲應用案例。在 C5M1 中,吳恩達重點解釋了循環神經網絡,循環神經網絡是一類用於處理序列問題的神經網絡,它能夠擴展到更長的序列。循環網絡相比經典的全鏈接網絡有很是大的提高,例如參數共享和構建長期依賴關係等。對於語句的序列建模,全鏈接網絡會給每一個輸入特徵分配一個單獨的參數,因此它須要分別學習句子每一個位置的全部語言規則。而循環神經網絡會在多個時間步內共享相同的參數,所以沒必要學習句子每一個位置的全部語言規則。此外,循環網絡會有一個記憶機制爲當前時間步的預測提供前面時間步的信息。
如上展現了循環網絡的基本結構,它只使用前一個時間步的隱藏單元信息和當前時間步的輸入信息,並利用相同的函數計算下一個隱藏單元的值。
完成這些課程後,就能夠開始準備最終項目了。