Udacity強化學習系列(二)—— 馬爾科夫決策過程(Markov Decision Processes)

說到馬爾科夫Markov,大家可能都不陌生,陌生的鏈接往裏走。 Markov決策一般場景我們仍然按Udacity強化學習系列(一)中的例子來說。 上圖一共有四個要素,狀態,模型,行爲和獎勵,共同構成了這個單一智能體的增強學習。這個構成的單一智能體的增強學習我們稱作Markov決策過程。 狀態S:可以對應到網格的各個位置,一個位置即爲一個狀態,那麼一共就有12個狀態,這12個狀態我們可以用座標(X,
相關文章
相關標籤/搜索