Markov Decision Processes

馬爾可夫鏈(markov chain)                                                                                      一個很簡單的只有3個狀態和2個動作的MDP例子 馬爾可夫決策過程是一個馬爾可夫鏈的擴展;區別是動作(允許選擇)和獎勵(給予激勵)的加入。相反,如果忽視獎勵,即使每一狀態只有一個動作存在,那麼
相關文章
相關標籤/搜索