馬爾科夫決策過程

馬爾科夫決策過程是強化學習中的一個基本框架,用來表示agent與環境的交互過程:agent觀測得到環境的當前狀態之後,採取動作,環境進入下一個狀態,agent又得到下一個環境狀態的信息,形成一個循環迴路。 在理解馬爾科夫決策過程之前,首先要理解馬爾科夫、馬爾科夫獎勵過程。 1. 馬爾科夫過程 滿足馬爾科夫性質的狀態轉換過程是馬爾科夫過程; 什麼是馬爾科夫性質呢? 在環境狀態的轉換過程中,環境的下一
相關文章
相關標籤/搜索