強化學習初系列1--簡述強化學習(入門)

1、基本原理 如果Agent的某個行爲策略導致環境正的獎賞(強化信號),那麼Agent以後產生這個行爲策略的趨勢便會加強。 Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。 2、強化學習VS監督學習 目標:動態地調整參數,以達到強化信號最大 若已知r/A梯度信息,則可直接使用監督學習算法。 強化信號r與Agent產生的動作A沒有明確的函數形式描述,所以梯度信息r/A無法得到。
相關文章
相關標籤/搜索