value_based RL學習記錄

強化學習 使用強化學習能夠讓機器學着如何在環境中拿到高分, 表現出優秀的成績. 而這些成績背後卻是他所付出的辛苦勞動, 不斷的試錯, 不斷地嘗試, 累積經驗, 學習經驗. 根據行爲來打分,不會告訴你該怎麼做,而是給這個行爲打分。 下一次決策的時候記住那些可以得到高分的行爲,進行這個行爲,拿高分避免低分。 RL算法們 方法 不理解環境 model-free 根據真實世界的反饋,一步一步行動 Q-le
相關文章
相關標籤/搜索