強化學習 之 簡介

(1)觀察可以理解爲狀態的子集 State是整個環境的表達,Observation是智能體所見。比如在遊戲中,地圖上的某些部分對玩家來說是不可見的,那整個地圖是「狀態「,玩家可見的部分是「觀察「。 (2)基於價值函數的強化學習和基於策略函數的強化學習在使用時的各有何優缺點?應該如何選擇? 強化學習裏面一直以來就是value based和policy based兩路方法,它們各有優劣。Value b
相關文章
相關標籤/搜索