人工智能學習筆記9

時間 2020-12-23

原文原文鏈接

Agent：智能體策略網絡（Policy Network）：直接預測在某個環境狀態下應該採取的Action。適合Action種類非常多或者有連續取值的Action的環境。（學習的不是某個action對應的期望價值Q，而是直接學習在當前環境應該採取的策略，可以直接產生最終的策略）價值/估值網絡（Value Network）：預測某個環境狀態下所有A

>>阅读原文<<