強化學習常用算法總結

時間 2021-01-13

標籤深度學習简体版

原文原文鏈接

強化學習常用算法總結本文爲2020年6月參加的百度PaddlePaddle強化學習訓練營總結 1. 表格型方法：Sarsa和Q-Learning算法 State-action-reward-state’-action’，簡稱Sarsa，是爲了建立和優化狀態-動作(state-action)的價值Q表格所建立的方法。首先初始化Q表格，根據當前的狀態和動作與環境進行交互後，得到獎勵reward以及

>>阅读原文<<