Udacity強化學習系列（二）—— 馬爾科夫決策過程（Markov Decision Processes）

時間 2020-12-29

標籤強化學習 Markov 简体版

原文原文鏈接

說到馬爾科夫Markov，大家可能都不陌生，陌生的鏈接往裏走。 Markov決策一般場景我們仍然按Udacity強化學習系列（一）中的例子來說。上圖一共有四個要素，狀態，模型，行爲和獎勵，共同構成了這個單一智能體的增強學習。這個構成的單一智能體的增強學習我們稱作Markov決策過程。狀態S：可以對應到網格的各個位置，一個位置即爲一個狀態，那麼一共就有12個狀態，這12個狀態我們可以用座標(X,

>>阅读原文<<