強化學習在船舶中的應用(三)——權衡

因讀博問題,投期刊問題,,,耽誤了好久,,,意外,,,意外,,, 上次講到蒙特卡羅與TD學習方法,現在開始講解決強化學習問題的探索(Exploration)/尋寶(Exploitation trade off)方法。 探索(Exploration): 用於獲取更多的有關環境的信息 尋寶(Exploitation trade off):儘可能用已知信息,進行利益最大化   切記,智能體的目標是預期的
相關文章
相關標籤/搜索