【強化學習篇】--強化學習從初識到應用

時間 2019-12-09

標籤強化學習篇強化學習識到應用简体版

原文原文鏈接

1、前述機器學習強化學習是學習一個最優策略(policy)，可讓本體(agent)在特定環境(environment)中，根據當前的狀態(state)，作出行動(action)，從而得到最大回報(G or return)。函數通俗點說：學習系統沒有像不少其它形式的機器學習方法同樣被告知應該作出什麼行爲，必須在嘗試了以後才能發現哪些行爲會致使獎勵的最大化，當前的行爲可能不單單會影響即時獎勵，還會

>>阅读原文<<