David Siver強化學習課程筆記（八）（上）

時間 2020-12-29

原文原文鏈接

第八課（上）：學習與規劃的結合我們在《第一課：強化學習簡介》中聊到過學習與規劃的概念，它們的本質區別是：「學習」時，智能體並未對環境進行建模，因此只能與實際環境交互，從而在trial-and-error中學習；而「規劃」時，智能體在自己的腦海中對環境構建了一個模型（雖然不一定準確），然後自己與這個模型進行交互，在該模型中進行推演，從而對策略進行改進。這兩種方法各有利弊：「學習」方

>>阅读原文<<