李宏毅強化學習筆記【0.強化學習導論】

agent觀察(observation即爲state)environment agent對做一些動作(action),影響environment 因爲有一些影響,environment給agent一些reward,告訴他是好的影響還是壞的影響 agent要學習,如何採取動作才能讓期望的reward最大   有時候reward很稀疏,大部分爲0(什麼都沒發生),只有少數有數值,這是一個困難。   監
相關文章
相關標籤/搜索