(飛槳)強化學習7日打卡營——基於表格型方法求解RL

兩個做業的對比:web Lesson2 表格型方法—— Q-learning (當心探索) # 根據輸入觀察值,採樣輸出的動做值,帶探索 def sample(self, obs): if np.random.uniform(0, 1) < (1.0 - self.epsilon): #根據table的Q值選動做 action = self.pred
相關文章
相關標籤/搜索