強化學習之策略policy 6

在決定性策咯中,從一組環境狀態到一組潛在動作的映射(把映射這個數學概念想象成加工廠),輸入的是狀態而輸出的是動作,如果agent想要遵循策略,只需要構建工廠或者指定映射。 在隨機性策略中,映射接收環境狀態s和動作a,返回智能體在狀態s下采取動作A的可能性。 在上一次的吸塵器的馬爾科夫圖中可以表示爲
相關文章
相關標籤/搜索