David Siver強化學習課程筆記(八)(上)

第八課(上):學習與規劃的結合         我們在《第一課:強化學習簡介》中聊到過學習與規劃的概念,它們的本質區別是:「學習」時,智能體並未對環境進行建模,因此只能與實際環境交互,從而在trial-and-error中學習;而「規劃」時,智能體在自己的腦海中對環境構建了一個模型(雖然不一定準確),然後自己與這個模型進行交互,在該模型中進行推演,從而對策略進行改進。這兩種方法各有利弊:「學習」方
相關文章
相關標籤/搜索