強化學習【二】馬爾科夫決策過程

時間 2020-12-29

標籤機器學習/深度學習简体版

原文原文鏈接

求解強化學習問題可以理解爲如何最大化個體在與環境交互過程中獲得的累積獎勵。環境的動力學特徵確定了個體在交互時的狀態序列和即時獎勵，環境的狀態是構建環境動力學特徵所需要的所有信息。當環境狀態是完全可觀測時，個體可以通過構建馬爾科夫決策過程來描述整個強化學習問題。有時候環境狀態並不是完全可觀測的，此時個體可以結合自身對於環境的歷史觀測數據來構建一個近似的完全可觀測環境的描述。從這個角度來說，幾乎所有的

>>阅读原文<<