李宏毅強化學習完整筆記！開源項目《LeeDeepRL-Notes》發佈

時間 2020-11-23

標籤 git github 算法網絡框架機器學習 ide 學習優化 spa 欄目 Git 简体版

原文原文鏈接

Datawhale開源 git

核心貢獻者：王琦、楊逸遠、江季github

提起李宏毅老師，熟悉強化學習的讀者朋友必定不會陌生。不少人選擇的強化學習入門學習材料都是李宏毅老師的臺大公開課視頻。算法

如今，強化學習愛好者有更完善的學習資料了！ Datawhale開源項目組成員總結了李宏毅的強化學習視頻，實現了視頻教程的完整梳理和復現，不再用擔憂強化學習。網絡

目前，項目已徹底開源，包括課程內容、配套的習題和項目，供你們使用。框架

1. 李宏毅深度強化學習簡介

李宏毅老師現任臺灣大學電氣工程系副教授，主要研究方向是機器學習，特別是深度學習。他有一系列公開的強化學習課程視頻，也是不少人入門的教程。機器學習

李宏毅老師的課程包括不少常見的強化學習算法，好比策略梯度、PPO、DQN、DDPG、演員-評論員算法、模仿學習、稀疏獎勵等算法。此外，咱們還補充了馬爾可夫決策過程、Q-learning、Sarsa、REINFORCE 等強化學習常見的算法及概念。ide

「策略梯度」課程中的 PPT，解釋了策略梯度的過程學習

「近端策略優化算法」課程中的 PPT，展現了重要性採樣的問題優化

李宏毅老師的《深度強化學習》是強化學習領域經典的中文教程之一。李老師幽默風趣的上課風格讓晦澀的強化學習理論變得輕鬆易懂，他會經過不少有趣的例子來說解強化學習理論。好比老師常常會用玩 Atari 遊戲的例子來說解強化學習算法。spa

此外，爲了課程的完整性，咱們整理了周博磊老師的《強化學習綱要》、李科澆老師的《百度強化學習》以及多個強化學習的經典資料做爲補充。 對於想入門強化學習又想看中文講解的人來講絕對是很是推薦的。

可是，考慮到不少強化學習愛好者對於課程筆記的需求，咱們不只僅須要的是教學視頻。咱們須要一份課程筆記，可以引領學習者的思路，幫助引導他們進入這個領域。所以，就誕生了這款《LeeDeepRL-Notes》李宏毅深度強化學習筆記。

2.《LeeDeepRL-Notes》李宏毅深度強化學習筆記

LeeDeepRL-Notes 是 Datawhale 自《李宏毅機器學習筆記》後的又一開源學習項目，由團隊成員王琦、楊毅遠、江季歷時四個月協做而成，實現了李宏毅老師深度強化學習課程內容的 100% 復現，而且在此基礎上補充了有助於學習理解的相關資料和內容，對重難點公式進行了補充推導。

期間，Datawhale 組織了《深度強化學習基礎》學習，在衆多學習者共同的努力下，對該內容進行了迭代和補充。下面，讓咱們來詳細瞭解下工做詳情吧。

具體工做：

2020 年 6 月 -- 2020 年 7 月：筆記整理初級階段，視頻 100% 復現；
2020 年 7 月 -- 2020 年 10 月：添加相關的習題和項目，對筆記內容及排版迭代優化；
2020 年 10 月 -- 2020 年 11 月：組隊學習《深度強化學習基礎》並對內容進行迭代完善；
2020 年 11 月：最後內容修正，正式推廣。

10月《深度強化學習基礎》組隊學習中學習者的評價

3.《LeeDeepRL-Notes》學習筆記框架

3.a 亮點

這份學習筆記具備如下優勢：

徹底將李宏毅老師的講課內容轉爲文字，方便學習者查閱參考。
爲了課程的完整性，咱們還整理了周博磊老師的《強化學習綱要》、李科澆老師的《百度強化學習》以及多個強化學習的經典資料做爲補充。
配有相關的習題和項目。

3.b 筆記框架

內容在總體框架上與李宏毅老師的深度強化學習課程保持一致。建議學習過程當中將李宏毅老師的視頻和這份資料搭配使用，效果極佳。筆記也和課程視頻徹底同步。

內容導航見下：

4. 筆記內容細節展現

4.a 對 Q-learning 概念的解析

在筆記中從新整理 PPT 內容，並增長了一些註釋

4.b Actor-Critc 算法的引入

根據內容整理成知識點，方便讀者理解閱讀

在整理過程當中，咱們並不對視頻語音直接轉文字，而是根據內容整理成知識點，方便讀者理解閱讀。

4.c 利用貼近學生的例子解釋知識點

強化學習基本概念的解釋

5. 習題（查漏補缺）

只有教程怎麼夠，來點兒課後習題和關鍵字總結幫助你們查漏補缺也是極好的。咱們根據每一章的內容，並結合其餘的網絡資料，原創了課後習題以及關鍵字的總結，輔助你在更短的時間內查漏補缺，令你更快的將「零碎、無序」的知識「拼接」完整。

5.a 關鍵字讓你快速 get 到文章的要點

在每章教程的後面，咱們都會結合每章的內容，將定義、具體算法、專業名詞等關鍵字和知識點，使用最短、最精確且最白話的方式總結，供你們吸取與鞏固。

教程第二章部分關鍵字示意圖

5.b 習題與參考答案助力你的查漏補缺

除了關鍵詞，咱們還提供了章節對應的習題供你們查漏補缺，而且結合其餘資料，提供了詳細、易懂的答案供你們參考。

教程第一章部分習題以及對應參考答案示意圖

6. 項目（動手實踐）

強化學習少了實踐怎麼行，這邊挑了三個項目，都基於流行的 OpenAI gym 環境，讓你快速入門，按部就班，主要包括：

6.a 對項目的簡易描述

6.b 層次清晰的手寫代碼

將整個強化學習過程分紅以上幾個子模塊，方便拆解與改動，而且契合原論文的僞代碼，在main.py中提供基本接口：

6.c 使用 Tensorboard 進行可視化

6.d 豐富的持續更新

在剛剛結束的組隊學習中，助教耐心地解答了你們的疑惑，而且會根據反饋的狀況，在以後的一個月內，持續更新項目的設計方法和詳細的代碼思路講解，敬請期待～

7. 配套視頻

視頻地址：https://www.bilibili.com/vide...

8. 開源地址

項目地址：https://github.com/datawhalec... 或點擊閱讀原文獲取，歡迎star！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。