強化學習概覽

 RL分類: value based, policy based, actor critic.算法

1、value based. 網絡

Q-learning app

Q表示的是,在狀態s下采起動做a可以得到的指望最大收益,R是當即得到的收益,而將來一期的收益則取決於下一階段的動做。函數

更新公式  Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)], alpha 是學習率, \gamma 是衰減函數
Q learning 是一個off-policy 的RL 算法.學習

 

Sarsa: on-policy 算法spa

更新公式: Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',a’)],.net

區別:Sarsa是保守的策略, Q-learning 是大膽,全局最優的策略blog

 

Deep Q network (DQN)遊戲

將 reward 值用neural network 來學習,而非用table 的方式存儲。 輸入爲state, action, 輸出爲action value. 或者輸入爲state, 輸出爲action value.資源

experimence replay

target network

 

2、 policy based. 

policy gredient:

Policy \pi能夠看作是一個參數爲\Theta的神經網絡,以打遊戲的例子來講,輸入當前的狀態(圖像),輸出可能的action的機率分佈,選擇機率最大的一個action做爲要執行的操做。不一樣過reward 值選擇action, 而是直接輸出action.

Policy Gradient不經過偏差反向傳播,它經過觀測信息選出一個行爲直接進行反向傳播,利用reward獎勵直接對選擇行爲的可能性進行加強和減弱,好的行爲會被增長下一次被選中的機率,很差的行爲會被減弱下次被選中的機率。

policy gredient中強化學習的目標就是學習一個Policy,即一個網絡,使其每看到一個畫面,作出一個action, 並作到最終得到最大總reward。

 

 3、actor critic.

actor: policy gredient

critic: Q-learning

訓練兩個不一樣的神經網絡

 

 

參考連接:

RL 很好的資源:https://medium.com/@awjuliani/super-simple-reinforcement-learning-tutorial-part-1-fd544fab149

Q-learning

https://www.zhihu.com/question/26408259/answer/123230350

https://www.jianshu.com/p/29db50000e3f?utm_medium=hao.caibaojian.com&utm_source=hao.caibaojian.com

Sarsa

https://blog.csdn.net/qq_39004117/article/details/81705845

Deep Q network:

https://blog.csdn.net/qq_32690999/article/details/79302093

https://blog.csdn.net/qq_30615903/article/details/80744083

Policy gradient:

https://www.jianshu.com/p/e9d47bb2dab2?utm_source=oschina-app

https://blog.csdn.net/qq_30615903/article/details/80747380\

Actor critic:

https://blog.csdn.net/qq_30615903/article/details/80774384

https://www.jianshu.com/p/8750b3fb5d07

 

 

 

相關文章
相關標籤/搜索