Udacity強化學習系列（二）—— 馬爾科夫決策過程（Markov Decision Processes）

時間 2019-12-06

標籤 udacity 強化學習系列決策過程 markov decision processes 简体版

原文原文鏈接

說到馬爾科夫Markov，你們可能都不陌生，陌生的連接往裏走。 Markov決策通常場景咱們仍然按Udacity強化學習系列（一）中的例子來講。上圖一共有四個要素，狀態，模型，行爲和獎勵，共同構成了這個單一智能體的加強學習。這個構成的單一智能體的加強學習咱們稱做Markov決策過程。狀態S：能夠對應到網格的各個位置，一個位置即爲一個狀態，那麼一共就有12個狀態，這12個狀態咱們能夠用座標(X,

>>阅读原文<<