[ 強化學習 ] —— 基礎知識

  1、強化學習如何運行? 強化學習主要由狀態(S)、行動(A)、環境(Env)、獎勵(Rewards)以及智能體(Agent)構成。         智能體能夠根據當前(t-1時刻)的狀態(S)輸出下一步動作(A),這一過程可以用一個決策函數A=Func(S)來表示。輸出下一步動作(A)後,智能體隨即進入下一時刻(t時刻)的狀態(S’)。同時,由於不知道這一決策的好壞,環境(Env)需要將這一時
相關文章
相關標籤/搜索