強化學習初系列1--簡述強化學習（入門）

時間 2021-01-11

原文原文鏈接

1、基本原理如果Agent的某個行爲策略導致環境正的獎賞(強化信號)，那麼Agent以後產生這個行爲策略的趨勢便會加強。 Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。 2、強化學習VS監督學習目標：動態地調整參數，以達到強化信號最大若已知r/A梯度信息，則可直接使用監督學習算法。強化信號r與Agent產生的動作A沒有明確的函數形式描述，所以梯度信息r/A無法得到。

>>阅读原文<<