強化學習的基本框架--系列文章2

強化學習的基本框架 一個強化學習系統由如下幾個部分組成: 一個policy策略函數,一個reward激勵函數,一個value價值函數、一個environment環境模型(非必須) 策略函數 策略函數的做用是把環境狀態映射到一個最優行爲。其輸入是觀察到的環境狀態,輸出是應該採起的最優行動。策略函數裏面多是一些行爲規則,或者是經過查表來給出輸出,或者能夠是一個神經網絡。另外,策略網絡的輸出能夠包含一些
相關文章
相關標籤/搜索