百度強化學習七日打卡營-學習筆記

百度強化學習七日打卡營-學習筆記 1、強化學習的作用 強化學習區分於監督學習和無監督學習,強化學習問題本身無法給出確切的答案,因此無法像監督學習一樣,直接給出答案。其求解方法需要不斷的與環境交互,以求解答案。 2、強化學習算法 (1)on-policy和off-policy策略對比 (1.1)q-learning 是off-policy策略,更新參數和與環境交互的策略是使用的不同的策略。 (1.2
相關文章
相關標籤/搜索