百度強化學習七日打卡營-學習筆記

時間 2020-12-29

標籤強化學習简体版

原文原文鏈接

百度強化學習七日打卡營-學習筆記 1、強化學習的作用強化學習區分於監督學習和無監督學習，強化學習問題本身無法給出確切的答案，因此無法像監督學習一樣，直接給出答案。其求解方法需要不斷的與環境交互，以求解答案。 2、強化學習算法（1）on-policy和off-policy策略對比（1.1）q-learning 是off-policy策略，更新參數和與環境交互的策略是使用的不同的策略。（1.2

>>阅读原文<<