Markov Decision Processes

時間 2021-01-02

原文原文鏈接

馬爾可夫鏈（markov chain）一個很簡單的只有3個狀態和2個動作的MDP例子馬爾可夫決策過程是一個馬爾可夫鏈的擴展；區別是動作（允許選擇）和獎勵（給予激勵）的加入。相反，如果忽視獎勵，即使每一狀態只有一個動作存在，那麼