人工智能學習筆記9

                Agent:智能體   策略網絡(Policy Network): 直接預測在某個環境狀態下應該採取的Action。    適合Action種類非常多或者有連續取值的Action的環境。(學習的不是某個action對應的期望價值Q,而是直接學習在當前環境應該採取的策略,可以直接產生最終的策略) 價值/估值網絡(Value Network): 預測某個環境狀態下所有A
相關文章
相關標籤/搜索