CNN筆記（CS231N）——強化學習（Reinforcement Learning）

時間 2021-01-08

原文原文鏈接

強化學習我們之前講了監督學習跟無監督學習，這一講我們採用一種全新的思路來解決問題叫做強化學習。強化學習的目標是讓代理學會採取動作來最大化獎勵函數下面是強化學習的一些例子我們怎麼樣對這個問題進行建模呢？我們可以把這個問題看做一個馬爾科夫鏈目標函數是從頭到尾的獎勵加權相加對於π是固定的，那麼怎麼解決隨機性的問題呢？方案就是採用數學期望來平均這些隨機性由於我們可以定義價值函數，來代表特定狀態

>>阅读原文<<