淺析強化學習及使用Policy Network實現自動化控制

時間 2021-01-17

原文原文鏈接

來源：極客頭條概要：強化學習已經有幾十年的歷史，但是直到最近幾年深度學習技術的突破，強化學習纔有了比較大的進展。淺析強化學習一個強化學習問題包含三個主要概念，即環境狀態（Environment State）、行動（Action）和獎勵（Reward），而強化學習的目標是獲得最多的累計獎勵。在圍棋中，環境狀態就是已經下出來的某個局勢，行動是在某個位置落子，獎勵則是當前這步棋獲得的目數（圍棋中存

>>阅读原文<<