強化學習介紹

強化學習介紹 從本質上看,強化學習是一個通用的問題解決框架,其核心思想是 Trial & Error。 強化學習可以用一個閉環示意圖來表示 強化學習四元素 策略(Policy):環境的感知狀態到行動的映射方式。 反饋(Reward):環境對智能體行動的反饋。 價值函數(Value Function):評估狀態的價值函數,狀態的價值即從當前狀態開始,期望在未來獲得的獎賞。 環境模型(Model):模
相關文章
相關標籤/搜索