馬爾可夫決策過程

本文轉自:http://www.52caml.com/reinforcement-learning/chapter3-markov-decision-process/ 1. 智能體與環境 強化學習問題不同於傳統機器學習問題,它是一種在交互的過程中學習並實現目標的問題。這裏把具有學習能力和決策能力的程序或系統稱之爲Agent(代理,智能體);與之交互的對象統稱爲環境(Environment)。交互過
相關文章
相關標籤/搜索