RL分類: value based, policy based, actor critic.算法
1、value based. 網絡
Q-learning app
Q表示的是,在狀態s下采起動做a可以得到的指望最大收益,R是當即得到的收益,而將來一期的收益則取決於下一階段的動做。函數
更新公式 Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)], alpha 是學習率, \gamma 是衰減函數
Q learning 是一個off-policy 的RL 算法.學習
Sarsa: on-policy 算法spa
更新公式: Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',a’)],.net
區別:Sarsa是保守的策略, Q-learning 是大膽,全局最優的策略blog
Deep Q network (DQN)遊戲
將 reward 值用neural network 來學習,而非用table 的方式存儲。 輸入爲state, action, 輸出爲action value. 或者輸入爲state, 輸出爲action value.資源
experimence replay
target network
2、 policy based.
policy gredient:
Policy \pi能夠看作是一個參數爲\Theta的神經網絡,以打遊戲的例子來講,輸入當前的狀態(圖像),輸出可能的action的機率分佈,選擇機率最大的一個action做爲要執行的操做。不一樣過reward 值選擇action, 而是直接輸出action.
Policy Gradient不經過偏差反向傳播,它經過觀測信息選出一個行爲直接進行反向傳播,利用reward獎勵直接對選擇行爲的可能性進行加強和減弱,好的行爲會被增長下一次被選中的機率,很差的行爲會被減弱下次被選中的機率。
policy gredient中強化學習的目標就是學習一個Policy,即一個網絡,使其每看到一個畫面,作出一個action, 並作到最終得到最大總reward。
3、actor critic.
actor: policy gredient
critic: Q-learning
訓練兩個不一樣的神經網絡
參考連接:
RL 很好的資源:https://medium.com/@awjuliani/super-simple-reinforcement-learning-tutorial-part-1-fd544fab149
Q-learning
https://www.zhihu.com/question/26408259/answer/123230350
https://www.jianshu.com/p/29db50000e3f?utm_medium=hao.caibaojian.com&utm_source=hao.caibaojian.com
Sarsa
https://blog.csdn.net/qq_39004117/article/details/81705845
Deep Q network:
https://blog.csdn.net/qq_32690999/article/details/79302093
https://blog.csdn.net/qq_30615903/article/details/80744083
Policy gradient:
https://www.jianshu.com/p/e9d47bb2dab2?utm_source=oschina-app
https://blog.csdn.net/qq_30615903/article/details/80747380\
Actor critic:
https://blog.csdn.net/qq_30615903/article/details/80774384
https://www.jianshu.com/p/8750b3fb5d07