馬爾科夫決策過程

時間 2021-05-05

標籤強化學習人工智能简体版

原文原文鏈接

馬爾科夫決策過程是強化學習中的一個基本框架，用來表示agent與環境的交互過程：agent觀測得到環境的當前狀態之後，採取動作，環境進入下一個狀態，agent又得到下一個環境狀態的信息，形成一個循環迴路。在理解馬爾科夫決策過程之前，首先要理解馬爾科夫、馬爾科夫獎勵過程。 1. 馬爾科夫過程滿足馬爾科夫性質的狀態轉換過程是馬爾科夫過程；什麼是馬爾科夫性質呢？在環境狀態的轉換過程中，環境的下一

>>阅读原文<<

相關文章

相關標籤/搜索

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<