【強化學習篇】--強化學習從初識到應用

時間 2021-01-15

原文原文鏈接

一、前述強化學習是學習一個最優策略(policy)，可以讓本體(agent)在特定環境(environment)中，根據當前的狀態(state)，做出行動(action)，從而獲得最大回報(G or return)。通俗點說：學習系統沒有像很多其它形式的機器學習方法一樣被告知應該做出什麼行爲，必須在嘗試了之後才能發現哪些行爲會導致獎勵的最大化，當前的行爲可能不僅僅會影響即時獎勵，還會影響下一步

>>阅读原文<<