強化學習的基本框架--系列文章2

時間 2019-12-05

標籤強化學習基本框架系列文章简体版

原文原文鏈接

強化學習的基本框架一個強化學習系統由如下幾個部分組成：一個policy策略函數，一個reward激勵函數，一個value價值函數、一個environment環境模型（非必須）策略函數策略函數的做用是把環境狀態映射到一個最優行爲。其輸入是觀察到的環境狀態，輸出是應該採起的最優行動。策略函數裏面多是一些行爲規則，或者是經過查表來給出輸出，或者能夠是一個神經網絡。另外，策略網絡的輸出能夠包含一些

>>阅读原文<<