強化學習常用算法總結

強化學習常用算法總結 本文爲2020年6月參加的百度PaddlePaddle強化學習訓練營總結 1. 表格型方法:Sarsa和Q-Learning算法 State-action-reward-state’-action’, 簡稱Sarsa,是爲了建立和優化狀態-動作(state-action)的價值Q表格所建立的方法。首先初始化Q表格,根據當前的狀態和動作與環境進行交互後,得到獎勵reward以及
相關文章
相關標籤/搜索