強化學習(2)

基於序列決策過程基礎上 馬爾剋夫決策過程 1.強化學習模型構建 具體優化什麼變量? state 參數更新時和環境交互 環境給Agent一個觀察,智能體給一個動作,環境給一個reward 再下一個觀察… 數學化 environment將state s0傳遞給agent,然後action A0,reward R1 即S0 A0 R1 S1 A1…對這些序列 即Episode 學習 每一次的過程稱爲Ep
相關文章
相關標籤/搜索