李宏毅強化學習筆記【0.強化學習導論】

agent觀察(observation即爲state)environment網絡 agent對作一些動做(action),影響environment學習 由於有一些影響,environment給agent一些reward,告訴他是好的影響仍是壞的影響3d agent要學習,如何採起動做才能讓指望的reward最大code   有時候reward很稀疏,大部分爲0(什麼都沒發生),只有少數有數值,這
相關文章
相關標籤/搜索