【強化學習篇】--強化學習從初識到應用

1、前述機器學習 強化學習是學習一個最優策略(policy),可讓本體(agent)在特定環境(environment)中,根據當前的狀態(state),作出行動(action),從而得到最大回報(G or return)。函數 通俗點說:學習系統沒有像不少其它形式的機器學習方法同樣被告知應該作出什麼行爲,必須在嘗試了以後才能發現哪些行爲會致使獎勵的最大化,當前的行爲可能不單單會影響即時獎勵,還會
相關文章
相關標籤/搜索