CNN筆記(CS231N)——強化學習(Reinforcement Learning)

強化學習 我們之前講了監督學習跟無監督學習,這一講我們採用一種全新的思路來解決問題叫做強化學習。強化學習的目標是讓代理學會採取動作來最大化獎勵函數 下面是強化學習的一些例子 我們怎麼樣對這個問題進行建模呢?我們可以把這個問題看做一個馬爾科夫鏈 目標函數是從頭到尾的獎勵加權相加 對於π是固定的,那麼怎麼解決隨機性的問題呢?方案就是採用數學期望來平均這些隨機性 由於我們可以定義價值函數,來代表特定狀態
相關文章
相關標籤/搜索