淺析強化學習及使用Policy Network實現自動化控制

來源:極客頭條 概要:強化學習已經有幾十年的歷史,但是直到最近幾年深度學習技術的突破,強化學習纔有了比較大的進展。 淺析強化學習 一個強化學習問題包含三個主要概念,即環境狀態(Environment State)、行動(Action)和獎勵(Reward),而強化學習的目標是獲得最多的累計獎勵。在圍棋中,環境狀態就是已經下出來的某個局勢,行動是在某個位置落子,獎勵則是當前這步棋獲得的目數(圍棋中存
相關文章
相關標籤/搜索