【RL從入門到放棄】【二】

1、Q_learning 探索者遊戲,從開始位置左右移動到終點位置,結束的時候獎勵值爲1,其餘時刻獎勵值爲0 q_table/值函數矩陣 states + actions choose action Left或者right,how to choose action? 行動策略(action policy)是ε-greedy策略,引入的一個參數是epsilon greedy, Left:0   ri
相關文章
相關標籤/搜索