馬爾可夫決策過程

時間 2020-07-20

標籤決策過程简体版

原文原文鏈接

本文轉自：http://www.52caml.com/reinforcement-learning/chapter3-markov-decision-process/ 1. 智能體與環境強化學習問題不一樣於傳統機器學習問題，它是一種在交互的過程當中學習並實現目標的問題。這裏把具備學習能力和決策能力的程序或系統稱之爲Agent（代理，智能體）；與之交互的對象統稱爲環境（Environment）。交

>>阅读原文<<