強化學習與馬爾可夫決策

在上一篇文章 強化學習的基本概念 中,用大白話介紹了強化學習的一些基本概念,尤其是強化學習的基本過程。在瞭解了強化學習的基本概念之後,在本篇文章中,筆者將介紹一下馬爾可夫決策過程,用馬爾可夫決策過程來形式化的描述強化學習。 強化學習與馬爾可夫決策過程 首先回顧一下Agent與Environment交互的過程。 在每一個時刻,Agent會觀察到Environment的狀態。根據狀態,Agent通過決
相關文章
相關標籤/搜索