強化學習(2)

時間 2021-01-11

原文原文鏈接

基於序列決策過程基礎上馬爾剋夫決策過程 1.強化學習模型構建具體優化什麼變量？ state 參數更新時和環境交互環境給Agent一個觀察，智能體給一個動作，環境給一個reward 再下一個觀察… 數學化 environment將state s0傳遞給agent，然後action A0，reward R1 即S0 A0 R1 S1 A1…對這些序列即Episode 學習每一次的過程稱爲Ep

>>阅读原文<<