【強化學習】第三章：有限馬爾可夫決策過程

時間 2021-01-13

標籤強化學習人工智能简体版

原文原文鏈接

3.1 「智能體-環境」交互接口下面先介紹一些基本的MDP概念。智能體（agent）：用來學習並作決定的一個機器。可以是一個自動行走的機器人；可以是下圍棋的阿法爾狗；也可以是一臺自動駕駛的汽車。環境（environment）：智能體以外並且與智能體有交互的任何東西都可以稱之爲環境。狀態（state）：所有可以用的信息（一般都是智能體所觀測到的環境的信息），智能體可以用來決定下一步反應以實現

>>阅读原文<<