Udacity強化學習系列(二)—— 馬爾科夫決策過程(Markov Decision Processes)

說到馬爾科夫Markov,你們可能都不陌生,陌生的連接往裏走。 Markov決策通常場景咱們仍然按Udacity強化學習系列(一)中的例子來講。 上圖一共有四個要素,狀態,模型,行爲和獎勵,共同構成了這個單一智能體的加強學習。這個構成的單一智能體的加強學習咱們稱做Markov決策過程。 狀態S:能夠對應到網格的各個位置,一個位置即爲一個狀態,那麼一共就有12個狀態,這12個狀態咱們能夠用座標(X,
相關文章
相關標籤/搜索