2019年伯克利大學 CS294-112《深度強化學習》第4講：強化學習簡介（筆記)

時間 2020-07-20

標籤 2019年伯克利大學 cs294 深度強化學習強化學習簡介筆記欄目悠閒生活简体版

原文原文鏈接

今天的課算是關於如何優化獎勵函數的強化學習算法的第一課。在接下來的幾週中會講到更多關於某個算法的細節，而今天就作一些數學推導。目的是對強化學習中一些通常的定義和不一樣種類的算法，有一個基本的認識。對典型的強化學習算法的原理有一個高層次的認識，因此今天的東西可能會有一點點高階。若是看起來有點吃力，不用擔憂後面幾週會講到更多細節，並且會講到這些方法的推導過程和實現過程當中的難點。今天會先講一下馬爾科

>>阅读原文<<