QUANT[18]強化學習(Reinforcement Learning)學習筆記6

Reinforcement Learning:An Introduction NOTE[4] Limitations and Scope 侷限性與適用範圍 從前面的討論中,應該清楚的是,強化學習很大程度上依賴於狀態的概念。他既作爲對策略和值函數的輸入,也作爲模型的輸入和輸出。非正式地,我們可以把狀態看作是傳達給代AGT的某種特定時期「環境如何」的信號。狀態的形式定義在第3章中給出的馬爾可夫決策過程
相關文章
相關標籤/搜索