QUANT[18]強化學習(Reinforcement Learning)學習筆記6

時間 2021-01-02

標籤強化學習简体版

原文原文鏈接

Reinforcement Learning：An Introduction NOTE[4] Limitations and Scope 侷限性與適用範圍從前面的討論中，應該清楚的是，強化學習很大程度上依賴於狀態的概念。他既作爲對策略和值函數的輸入，也作爲模型的輸入和輸出。非正式地，我們可以把狀態看作是傳達給代AGT的某種特定時期「環境如何」的信號。狀態的形式定義在第3章中給出的馬爾可夫決策過程

>>阅读原文<<