B站教學，全中文課程：港中文周博磊強化學習課程完結 - 知乎

歷時兩個多月，本週一，香港中文大學信息工程系助理教授周博磊的中文強化學習課程終於完結了。

機器之心報道，參與：張倩。git

做爲全國知名的學習網站，咱們常常能夠在 B 站上看到國內外名師的講課視頻。但這些視頻通常都是「搬運工」們從油管等渠道搬上來的。github

那有沒有哪位大佬親自下場當 up 主呢？香港中文大學的周博磊老師就是其中一位。算法

周博磊老師博士畢業於麻省理工學院，現任香港中文大學信息工程系助理教授，研究方向主要爲機器感知和決策，重點是經過學習可解釋、結構化的表徵，使機器可以在複雜的環境中感知、推理和行動。編程

今年 3 月份，受疫情影響，宅在家上課的周老師作出了一個決定：把本身每週的《強化學習綱要》課程用中文講一遍，並上傳到 B 站。這一消息吸引了上萬人圍觀。這可能也是全網第一個中文強化學習課程。框架

在過去的兩個多月裏，周老師基本保持着每週一更的頻率，爲你們錄製了 10 節課程，共 16 個視頻。主題包括：機器學習

歸納與基礎
馬爾科夫決策過程
無模型的價值函數估計和控制
價值函數的近似
策略優化基礎
策略優化進階
基於環境模型的 RL 方法
模仿學習
RL 分佈式系統
完結篇

該課程使用的編程語言是 Python，深度學習框架則是 TensorFlow 和 PyTorch（PyTorch 爲主）。編程語言

在開課之初，周老師曾提醒你們，該課程主要面向大3、大四或研一的學生。參加課程的學生須要具有相關背景知識，包括線性代數、機率論、機器學習（數據挖掘、模式識別、深度學習）等。此外，因爲該課程有很多實踐內容，因此參加課程的同窗最好有一些編程經驗，會用 Python、PyTorch。分佈式

課是有必定難度的，從播放量的變化趨勢也可略知一二。函數

但即使如此，仍是有同窗堅持到了最後，並表示受益不淺：學習

還有同窗表示，上完課感受本身變聰明瞭：

除了課程視頻以外，周老師還在 GitHub 上更新了課程的所有代碼，並且每節課後都留有做業。

課程地址：https://space.bilibili.com/511221970
GitHub 連接：https://github.com/zhoubolei/introRL

下面讓咱們來看一下每節課的具體內容。

9 小時 10 堂課，周老師帶你走近強化學習

第一節課分上下兩節，總共 44 分鐘，主要介紹了課程綱要、強化學習基本概念、序列決策入門、強化學習編程實踐等內容。

在第二節課上，周老師用 1 個小時的時間介紹了馬爾科夫決策過程（MDP），包括 1）馬爾科夫鏈（馬爾科夫決策過程的簡化版本）、馬爾科夫獎勵過程；2）馬爾科夫決策過程的策略估計，即當給定一個決策過程以後，如何計算它的價值函數；3）馬爾科夫決策過程的控制，包括策略迭代和價值迭代兩種算法。

然而，在現實生活中，不少狀況下沒法獲取準確的 MDP 模型，所以只能藉助無模型的方法解決問題，這也是周老師在第三課中講解的主要內容，包括無模型的價值函數估計和控制。

第四課的主題是價值函數的近似，包括價值函數近似的基本原理、利用價值函數近似進行預測和控制、DQN 在雅達利遊戲中的應用等。

第五課是關於策略優化的基礎知識，包括基於策略的強化學習、蒙特卡羅策略梯度算法、如何減少策略梯度中的方差、Actor-Critic 算法等。

前五堂課的內容都很是豐富，所有消化已很是不易，但其實這還沒到最難的部分。最難的一課是第六課。

第六課依然是講策略優化，不過難度上了一個臺階。在這堂課中，周老師主要介紹了策略梯度算法的不一樣變種以及近五年來最新的策略優化過程。其中，後者能夠分爲兩條主線，涵蓋強化學習中最有名的六種算法：

因爲課程只有 1 個半小時的時間，所以每一個部分不可能講得很是詳細，學到這課的同窗還須要本身去啃其中涉及的一些論文。

第七課的內容是基於模型的強化學習算法，包括概要、基於模型的價值函數優化、基於模型的策略函數優化、基於模型的算法在機器人中的應用等內容。

第八課的內容是模仿學習，包括 1）概要；2）模仿學習的兩種常見算法——行爲克隆和 DAGGER；3）逆強化學習和基於生成對抗訓練的模仿學習；4）如何改進模型學習的模型；5）如何結合模型學習與強化學習以及 6）模仿學習在計算機視覺等任務中的應用。

第九課是強化學習系統的分佈式設計，具體內容包括分佈式機器學習的特色、分佈式系統到強化學習系統的演變以及 AlphaGo、OpenAI Five、AlphaStar 等知名強化學習 AI 背後的系統設計。

最後一節課是複習課，把前面九節課的內容進行了梳理。

除此以外，周老師還推薦了一些強化學習方面的閱讀材料，包括 OpenAI 的深度強化學習教程 Spinning-Up 和 John Schulman 的《Nuts and Bolts of Deep RL experimentation》課程。前者總結了現有的主流強化學習算法，既有代碼也有講解；後者是 John Schulman 的強化學習研究歷程與經驗。這些能夠和本課程的推薦教材——Sutton 和 Barton 合做撰寫的《強化學習》一塊兒閱讀。

至此，《強化學習綱要》課程告一段落。不過，周老師表示，他可能會在暑假錄一些「番外」，聊一聊本身感興趣的生成建模、無監督表徵學習等內容。此外，關於機器感知與決策的內容也在籌劃，有望在暑假與你們見面。

固然，因爲課程比較難，你們不免有疑問。若是你在本課程學習期間遇到了問題，能夠到 B 站視頻的評論區留言，周老師會盡可能做答，也會有熱心的同窗幫忙回答。