2019年伯克利大學 CS294-112《深度強化學習》第4講:強化學習簡介(筆記)

今天的課算是關於如何優化獎勵函數的強化學習算法的第一課。在接下來的幾週中會講到更多關於某個算法的細節,而今天就作一些數學推導。目的是對強化學習中一些通常的定義和不一樣種類的算法,有一個基本的認識。對典型的強化學習算法的原理有一個高層次的認識,因此今天的東西可能會有一點點高階。若是看起來有點吃力,不用擔憂後面幾週會講到更多細節,並且會講到這些方法的推導過程和實現過程當中的難點。 今天會先講一下馬爾科
相關文章
相關標籤/搜索