強化學習在船舶中的應用（三）——權衡

時間 2021-01-13

原文原文鏈接

因讀博問題，投期刊問題，，，耽誤了好久，，，意外，，，意外，，，上次講到蒙特卡羅與TD學習方法，現在開始講解決強化學習問題的探索（Exploration）/尋寶（Exploitation trade off）方法。探索（Exploration）: 用於獲取更多的有關環境的信息尋寶（Exploitation trade off）：儘可能用已知信息，進行利益最大化切記，智能體的目標是預期的

>>阅读原文<<