[ 強化學習 ] —— 基礎知識

  一、強化學習如何運行?html 強化學習主要由狀態(S)、行動(A)、環境(Env)、獎勵(Rewards)以及智能體(Agent)構成。git         智能體可以根據當前(t-1時刻)的狀態(S)輸出下一步動做(A),這一過程能夠用一個決策函數A=Func(S)來表示。輸出下一步動做(A)後,智能體隨即進入下一時刻(t時刻)的狀態(S’)。同時,因爲不知道這一決策的好壞,環境(Env
相關文章
相關標籤/搜索