馬爾可夫決策過程

時間 2020-12-30

標籤機器學習馬爾可夫简体版

原文原文鏈接

本文轉自：http://www.52caml.com/reinforcement-learning/chapter3-markov-decision-process/ 1. 智能體與環境強化學習問題不同於傳統機器學習問題，它是一種在交互的過程中學習並實現目標的問題。這裏把具有學習能力和決策能力的程序或系統稱之爲Agent（代理，智能體）；與之交互的對象統稱爲環境（Environment）。交互過

>>阅读原文<<