強化學習概述

文章目錄 1 前言 2 正文 1.1 強化學習定義 1.2 馬爾可夫決策過程 1.3 強化學習的目標函數 1.3.1 總回報 1.3.1 目標函數 1.4 值函數 1.4.1 狀態值函數 1.4.2 狀態-動作值函數 14.3 值函數的作用 1.5 強化學習的分類 1.5.1 按任務分類 1.5.2按算法分類 3 總結 1 前言 監督學習可用於迴歸,分類等任務,這一般都需要一定數量的帶標籤的數據。
相關文章
相關標籤/搜索