【強化學習】第三章:有限馬爾可夫決策過程

3.1 「智能體-環境」交互接口 下面先介紹一些基本的MDP概念。 智能體(agent):用來學習並作決定的一個機器。可以是一個自動行走的機器人;可以是下圍棋的阿法爾狗;也可以是一臺自動駕駛的汽車。 環境(environment):智能體以外並且與智能體有交互的任何東西都可以稱之爲環境。 狀態(state):所有可以用的信息(一般都是智能體所觀測到的環境的信息),智能體可以用來決定下一步反應以實現
相關文章
相關標籤/搜索