強化學習概述

時間 2021-01-15

標籤機器學習简体版

原文原文鏈接

文章目錄 1 前言 2 正文 1.1 強化學習定義 1.2 馬爾可夫決策過程 1.3 強化學習的目標函數 1.3.1 總回報 1.3.1 目標函數 1.4 值函數 1.4.1 狀態值函數 1.4.2 狀態-動作值函數 14.3 值函數的作用 1.5 強化學習的分類 1.5.1 按任務分類 1.5.2按算法分類 3 總結 1 前言監督學習可用於迴歸，分類等任務，這一般都需要一定數量的帶標籤的數據。

>>阅读原文<<