簡介:算法
PGMRL: PGMRL就是把RL問題建模成一個機率圖模型,以下圖所示:框架
而後經過variational inference的方法進行學習:ide
PGMRL給RL問題的表示給了一個範例,對解決不少RL新問題提供了一種思路和工具。工具
Bayesian RL: 主要是對RL的reward function, transation function引入uncertainty, 引入prior和更新posterior來建模,從而更好地進行探索。post
思考:爲何PGMRL推導過程當中沒有Beyesian RL的exploration-exploitation trade-off的問題。學習
簡單的PGMRL建模的reward和transation是肯定的,沒有超參數的。在某種程度下,好比問題是凸的狀況下,是不須要進行exploration的。而Beyesian RL的問題設定是假設這些東西是一種機率分佈,而不是肯定性的。而BeyesionRL對這種不肯定性的處理恰巧克服了RL問題不是凸的狀況local optimal的減弱。spa
thinking: what things does the Beyesian RL not consider?blog
Beyesian RL關注的點主要仍是在uncertainty上,對policy學習過程的建模能力較弱,更適合用來處理RL中的uncertainty的問題,好比對sparse reward的問題處理能力較弱。ip
relationship between PGMRL and Bayesian RL:數學
我以爲Bayesian RL應該歸爲PGMRL中的一部分,PGMRL更具備總體性,對問題描述更全面,而Bayesian RL更像是處理某一特殊問題的方式。Bayesian RL須要在經過數據更新後驗,而後也是model學習和policy學習相互交替的過程,可是因爲沒有很好的描述,咱們不清楚這裏面那些東西是missing variables,並且表面上看上去彷佛reward和transation是missing的,但在PGMRL框架下,咱們能夠很清晰的看到其實optimal policy纔是missing variable(PGMRL中把optimal policy轉換成了variable)。這種迭代學習的過程,和EM算法的迭代相似,就是一邊作inference一邊作learning。這裏inference就是對opitmal policy的學習過程,learning就是對MDP參數學習的過程。而在對optimal policy學習的時候,是這一種變分推斷的過程,而這個變分推斷過程又結合了MCMC採樣的東西,MCMC採樣有個冷啓動的過程,因此前期不能只根據policy的最優結果來進行採樣,須要加一些擾動。各類inference技術的結合加上簡化造成了目前的基於deep learning的RL policy學習方法。
對於無先驗的東西,我以爲仍是用maximum entropy和variational infercence的方式去處理,簡單的Bayesian RL中若是使用簡單的共軛先驗,對問題的處理侷限性也較大,不具備普適性。因此,對於無先驗的東西,直接採用maximum entropy更具備普適性。